关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3611人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

秦雯自曝袭警被抓后,让王家卫捞人找自己?

芊手若 浏览 3436

服装AB版带货套路:消费欺诈不能成行业“潜规则”丨中听

大象新闻 浏览 3364

狂砸30亿!阿里千问官宣“春节请客”计划,吃喝玩乐全免单

雷科技 浏览 2323

荣耀“既Pro又Air”新机设计线稿首曝

IT之家 浏览 2711

广东佛山路边停车为收费出"奇招" 车主吐槽:吃相难看

中国新闻周刊 浏览 6880

俄乌“和平计划”又生变 欧洲“强有力”回应特朗普批评

环球网资讯 浏览 3115

章子怡与师弟聚餐!生图面颊凹陷苹果肌却肿胀

秋狝春苗梦 浏览 2392

深度搜索如何学会自我监督:来自脑科学的启发

科技行者 浏览 2509

“这条裙子”今年冬天火出圈,全世界的时髦女人都在穿

LinkFashion 浏览 2550

郭敬明太爱用风险艺人!吸毒的、偷税的、进监狱的,埋了好几部戏

萌神木木 浏览 2280

岚图冲刺港股0融资:车型“偏科”,年销目标前9月完成48.5%

尺度商业 浏览 3917

腾讯首次系统披露研发进展:AI生成50%新增代码,研发自动化水平同比提升67%

华尔街见闻官方 浏览 3728

3.9秒破百/具备L3级智驾能力 奥迪E7X预售28.98万起

网易汽车 浏览 230

波兰外交部称有炮弹击中该国驻乌克兰大使馆

极目新闻 浏览 4263

乌克兰:大量哥伦比亚人参与对俄作战

每日经济新闻 浏览 3464

特瓦斯:大多数联赛都在苦苦挣扎,我好奇为何人们这么想阻止海外赛

懂球帝 浏览 3579

牛弹琴:印度耍流氓太不地道 难怪巴基斯坦要发飙

北京日报客户端 浏览 13442

香奈儿2026高级手工坊|最贴近日常的高级奢华

LinkFashion 浏览 3080

鲁杰里:西蒙尼和加帅有共通之处;我们有效限制了国米的发挥

懂球帝 浏览 3220

3D唇妆风好大,人类对唇线笔的开发不足1%

时尚COSMO 浏览 2963

获皮奥利称赞!小法回应:很感谢他,去年曾联系他并聊了两个小时

直播吧 浏览 4465
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1