关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3610人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

苹果芯片不够用了

北京商报 浏览 2454

黄金价格走势疯狂,最牛概念股1年价格飙涨超500%

览富财经网 浏览 2522

岁月不败美人,50岁她们比20岁更好看

LinkFashion 浏览 2666

秋季穿衣别太老气横秋,看看这27套造型,时尚舒适又显高

静儿时尚达人 浏览 3443

中国豪华车老大之争:奥迪凭啥干掉奔驰宝马?

天天汽车 浏览 2464

又一个明星被骂到退网,谁赢了?

独立鱼 浏览 2817

特朗普:对委军事行动使用了空中、陆地和海上力量

极目新闻 浏览 2745

新华社:2026世界有7大悬念 或将深刻影响国际政经格局

新华社 浏览 8633

余承东任华为终端公司董事长,孟晚舟等卸任董事

蓝鲸新闻 浏览 2399

央视公开“点名”孙俪,原来张艺谋没说错

银河史记 浏览 3460

理想超充桩突破2万根

大象新闻 浏览 3044

全网爆火的“鲨鱼裤”太丑了!巨显腿粗!

Yuki女人故事 浏览 3802

占比突增到62.2%,年末新能源车突然爆发,燃油车要“熄火”了?

小李车评李建红 浏览 3018

聚辰半导体冲刺港股:9个月营收9.3亿利润3.1亿陈作涛控制24%股权

雷递 浏览 2593

定位顶级奢华MPV 奔驰VLE测试谍照曝光

车质网 浏览 3022

歼-10又发威!巴铁击落印度战机并俘虏飞行员

浏览 7717

拼了,TA:雄鹿计划用现有资源进行重磅引援来挽回字母哥

懂球帝 浏览 2951

梅克斯:多梅内克执教法国队时,根据球员的星座来排首发

懂球帝 浏览 3702

【亚冠精英】傅欢自摆乌龙 海港0比2町田垫底积分榜

体坛周报 浏览 3641

同演女将军,18岁黄杨钿甜和38岁赵丽颖对比

肆季娱乐 浏览 1139

那些含金量十足的大师赛,都有德约的身影!

网球之家 浏览 2736
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1