关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro825人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

以军多次袭击加沙 哈马斯谴责其违反停火协议

环球网资讯 浏览 345

伊能静儿子逛成都,恩利吃美食被辣出表情包

疯说时尚 浏览 884

“2025全球十大工程成就”揭晓,DeepSeek开源大模型等上榜

上观新闻 浏览 1000

不管在什么地方 你都是那样拉轰的男人

星球商业评论 浏览 726

《狂野时代》外网爆口碑!西方观众惊叹,中国连电影都遥遥领先

娱乐圈笔娱君 浏览 381

意媒:德佬准备续约K77是想避开转会传闻,经纪人正等待与其接触

直播吧 浏览 14168

陈运拿下华锋股份意欲何为

北京商报 浏览 374

李霄鹏:国安周中亚冠很辛苦,球迷应该理解球员,对他们宽容一些

懂球帝 浏览 805

港媒:中美达成共识后,荷兰在接管安世问题上进退两难

环球时报国际 浏览 747

苹果计划在明年 3 月推出全新改版 Siri “借鉴” Gemini 技术

威锋网 浏览 702

没补贴、收购置税,新能源车好日子到头了?现实会打服“恨电派”

小李车评李建红 浏览 1412

潘通发布2024年度色彩:柔和桃

数艺社 浏览 13685

"面值退市"保卫战打响 多家A股公司"花式自救"

新华网 浏览 62563

电商助力 四川会东石榴从深山走向全国市场

封面新闻 浏览 1455

罗伯逊谈萨拉赫:我们都屏蔽了转会传闻,俱乐部也表明了立场

直播吧 浏览 14369

俄称打击乌军多处目标 乌称击退俄进攻

国际在线 浏览 721

申花亚冠赛季首胜!连战蔚山首尔不败,阿苏埃建功,延续5大纪录

奥拜尔 浏览 871

拜仁欧冠战巴黎大名单:凯恩领衔,诺伊尔、卡尔在列

懂球帝 浏览 743

车机升级 新款丰田皇冠陆放售28.48万起

网易汽车 浏览 11099

秋天别错过卫衣搭长靴 少女感兼具少年感

巧百搭 浏览 15047

小米的印度“心事”与“新事”

钛媒体APP 浏览 14701
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1