关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3600人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

剧组撞死猫风波持续发酵

小撇说事 浏览 2860

网络安全AI说丨警惕U盘里的“不速之客”

海外网 浏览 3761

俄罗斯终于发现 福建舰服役后做中国的朋友很有面子

现代小青青慕慕 浏览 8043

全红婵还没回国家队!大概率缺席冬训

草莓解说体育 浏览 2116

短期内可生产大量武器级钚 专家分析日本暗藏“核武野心”

环球网资讯 浏览 3239

10月工信部新车申报:小鹏/奥迪/吉利等多款车型在列!

百姓评车 浏览 3817

前三季度海洋生产总值7.9万亿元 同比增长5.6%

央视财经 浏览 3598

秋季穿衣别太老气横秋,看看这27套造型,时尚舒适又显高

静儿时尚达人 浏览 3438

今年最好的大银幕电影,没有之一

电影最TOP 浏览 2903

全国人大代表梁伟:用AI打通中国芯片弯道超车的 “任督二脉”|代表在这里

封面新闻 浏览 1832

刘宇宁一天迎来两个喜讯,秦海璐没说谎

贵州小娟 浏览 2803

配备大尺寸中控屏 奇瑞T1Q内饰谍照曝光

车质网 浏览 3220

黎智英等9名被告人一连4日进行求情 香港大量警员戒备

扬子晚报 浏览 13020

普京:若使用"战斧"导弹袭击俄领土 将招致惊人回应

环球网资讯 浏览 3683

苹果天气App昨晚出现宕机,目前异常已修复

三言科技 浏览 541

程强:市场延续回暖走势

首席经济学家论坛 浏览 2990

美军火商称俄乌冲突及巴以冲突推动利润增长

环球网资讯 浏览 3678

涉嫌违反美国移民法规则 吴佩慈"婆婆"在美国被捕

红星新闻 浏览 14220

8.88万起售 还带8155芯片与L2辅助驾驶

My车轱辘 浏览 4486

AMD也要减少GPU供应!重点转向RX 9070 XT:价格更好调整

快科技 浏览 2571

解放军举行围台军演 郑丽文:赖清德把自己的路走绝了

海峡导报社 浏览 24343
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1