关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro826人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

德国Mindfactory平台数据:AMD处理器周销量是英特尔10倍多

IT之家 浏览 345

春日穿搭选韩系 展现温柔的女性魅力

小红豆变美日记 浏览 19837

“扫描全能王”母公司年入10亿,55岁中科院博士即将IPO

刺猬公社 浏览 14838

朱江明和费翔一起发零跑车皇!增程配80度大电池,“全身名牌”登场

车东西 浏览 984

明年上市 金标大众首款轿车 与众07申报信息发布

网易汽车 浏览 1054

以军证实有8枚火箭弹射向以中部地区 3人受轻伤

环球网资讯 浏览 10827

内娱最疯红毯,评出“年度抠门艺人”榜单

Yuki女人故事 浏览 13145

巴菲特和李嘉诚,为何后期都大量投资公用事业类生意

锦缎研究院 浏览 15980

talksport:皮克福德是曼联头号目标门将,目前交易价格3000万镑

直播吧 浏览 16029

日本未来或再现大地震,破坏性比311地震强10倍!

趣看热点 浏览 454134

300万中产宝妈,买出一个IPO

豹变 浏览 1429

台学者:台当局不办光复节活动 人民无法接受

环球时报新闻 浏览 6275

美股、中概股,全线爆发!机构称A股调整是布局良机!

证券时报e公司 浏览 954

张馨予否认生二胎,声称这几天馒头主食吃的太多了

趣看热点 浏览 26102

贾玲《热辣滚烫》宣传失误,评论区大批质疑,火速调整营销亲情

萌神木木 浏览 12419

马卡: 姆巴佩在皇马达成50球里程碑,本赛季点球命中率显著提升

直播吧 浏览 1649

今年夏天最高级的配色!明天就这么穿吧

LinkFashion 浏览 17027

花一个月工资买节日礼物,值吗?

时尚COSMO 浏览 212

试图抢占先机!谷歌将生成式人工智能引入在线购物领域

财联社 浏览 16155

一败涂地!利物浦本赛季有多惨?英超第8,欧冠耻辱+杯赛出局

天涯沦落人 浏览 19103

温网女单首轮:朱琳两盘不敌世界第一斯瓦泰克,止步第一轮

直播吧 浏览 15416
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1