关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3597人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

马杜罗不认罪称"被绑架""仍是总统" 外交部回应

环球网资讯 浏览 8923

智能化全面进阶 捷达JETTA X概念车发布

车质网 浏览 820

达利欧:AI热潮处于泡沫初期,美联储或进一步吹大泡沫

华尔街见闻官方 浏览 2782

俄方:乌克兰袭击赫尔松地区目标致超20人死亡

环球网资讯 浏览 2799

拖欠WTO的会费 美国已悄悄补缴

上观新闻 浏览 9038

熊黛林带双胞胎女儿旅行,2个女儿长得完全不一样

素素娱乐 浏览 2504

好心载同事却出车祸遭索赔 法院:司机承担60%赔偿责任

极目新闻 浏览 8849

北京105-74广东3利好!曾凡博+斯佩尔曼轰最佳状态,三分联盟第1

篮球资讯达人 浏览 2833

借款人伪造公章贷款 煤企"缺席"审理被判背负上亿债务

澎湃新闻 浏览 30016

东体:有其他中超队也对加布感兴趣,球员已到上海将回归海港

懂球帝 浏览 2378

俄总理签署决定 允许俄国防部终止多项双边协议

财联社 浏览 2365

佘诗曼《新闻女王2》首波口碑出炉了!现场观众的评价一针见血

娱乐圈笔娱君 浏览 3361

贝斯美实控人涉要约收购违规遭立案

中国经营报 浏览 3700

具身智能何时实现“ChatGPT时刻”,王兴兴说了个关键前提丨聚焦进博会

红星资本局 浏览 3410

「以演聚力·链动共生」文旅商体展融合专场私董会成功举办!| 2025文创新势力超级私董会

第一财经商业数据中心 浏览 3491

蔡卓妍老公露面回应会努力赚钱养家,微笑默认生孩子计划

素素娱乐 浏览 529

阿斯:皇马想延续阿拉巴和吕迪格的成功,以免签的方式签中卫

懂球帝 浏览 2353

新款享界S9纯电版曝光 尾部细节调整

网易汽车 浏览 3828

在巴林的中国旅客亲历空袭:你听!导弹又来了

澎湃新闻 浏览 1886

欧盟高官:美国对格陵兰岛的威胁“极其令人担忧”

国际在线 浏览 2663

《逍遥》结局揭秘:糖衣之下,是千年人妖血泪博弈

肆季娱乐 浏览 2867
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1