关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro827人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

谢晖:我们可以拿到三分的机会更多,但机会转化率还是有老问题

直播吧 浏览 18826

男子夜钓遭枪击 家属:4人当场逃跑 伤者走回家后倒地

封面新闻 浏览 6477

被问"联合利剑-2024A"后是否会有"B" 国台办回应

财联社 浏览 10688

拉总:诺坎普改叫梅西球场?不合适

体坛周报 浏览 174

"最美王后"就巴以冲突愤怒发声 父母均为巴勒斯坦人

环球人物杂志 浏览 80459

你适合“剪刘海”还是“露额头”?关键看这点!

Yuki女人故事 浏览 168

一上线就霸榜全球,这限制级太猛了

独立鱼 浏览 12781

2025浦江创新论坛主论坛举行,汇聚全球智慧力量,构建开放合作科技共同体

澎湃新闻 浏览 1618

马杜罗怒斥美“南方之矛”行动:国际法终将被维护

国际在线 浏览 535

以军称打死哈马斯武器装备部门负责人

新京报 浏览 376

2019年资金荒隐现?全球货币市场流动性趋紧信号显现

华尔街见闻官方 浏览 763

《日掛中天》首波口碑!剧情被质疑渲染苦难,辛芷蕾演技获肯定

萌神木木 浏览 684

内容“新物种”,全球“闪电战”|2025中国短剧出海报告

霞光社 浏览 1465

马斯克讽刺人工智能炒作:什么“机器学习” 其实就是统计

金融界 浏览 16252

张泉灵硬核督战,CEO当场跑路,万千惠真的被做局了?

仙女事件簿 浏览 1540

马塞利诺:虽然很困难,但我们想要击败尤文图斯

懂球帝 浏览 1452

TA:英足总考虑对米特洛维奇追加禁赛,会参考历史案例

直播吧 浏览 19291

21-14,21-17!雅思组合两局横扫过关,强势跻身印尼公开赛八强

ALL体育 浏览 16709

拼多多新质供给一周年:新质商品SKU数增长超五成,产业加速新质转型

财闻 浏览 1475

安以恩:邦本宜裕是很“高级”的球员,我们能秒懂彼此的意图

懂球帝 浏览 369

大模型111人:谷歌和OpenAI的人才战争

量子位 浏览 19576
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1