关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3621人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

马卡:桑托斯与内马尔将合作,制定平衡俱乐部与国家队的计划

懂球帝 浏览 2961

抠门年轻人,开始流行买“顶配猫砂”

DT商业观察 浏览 3433

RT-Thread熊谱翔:开源是国产操作系统构建生态的最佳路径

观察者网 浏览 2658

搭2.9T插混动力 法拉利SC40官图发布

车质网 浏览 3630

比亚迪明星高管赵长江确认离职,已在比亚迪工作16年

红星资本局 浏览 3582

官方:瑞典裁判尼贝里将执法欧冠热刺vs多特

懂球帝 浏览 2582

湾区晚会近百万明星亮相!造型一个比一个认真,单依纯高定抢镜

萌神木木 浏览 3566

翁虹女儿18岁成人及笄礼惊艳全网

艳姐的搞笑视频 浏览 3705

兄弟获180万拆迁款被控敲诈勒索 原村官:举报我贪污

极目新闻 浏览 7891

4岁娃吃席打翻盘子被要求道歉 父亲:"娃儿小"不是借口

封面新闻 浏览 18146

负债数亿,足力健卖食品要开20000家店

中国企业家杂志 浏览 3467

"性商教母"周媛开启线下课 学员发现台上讲师是前同事

中国新闻周刊 浏览 32297

房企开年集体“变阵”:人事调整与架构重塑背后的生存新法则

拾盐士 浏览 2615

朱丹新年晒全家福,儿女戴眼镜长相很一般

疯说时尚 浏览 2868

明略科技通过聆讯:上半年营收6.4亿,经调整利润转正 腾讯是股东

雷递 浏览 3837

郭碧婷父亲回应病危传闻,自我调侃幽默辟谣,近状曝光精神抖擞

扒虾侃娱 浏览 3776

审美倒退30年?舒淇却被全网夸爆了

Yuki女人故事 浏览 759

特朗普第5次给莫迪打电话莫迪终于接了:75岁生日快乐

第一财经资讯 浏览 15628

4399元 一图读懂OPPO Find X9 刘作虎:严重超标的标准版

快科技 浏览 3698

裤子+靴子:今年冬天最经典搭配,松弛又时髦!

LinkFashion 浏览 2411

俄称乌企图袭击普京官邸

界面新闻 浏览 2770
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1