关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3601人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

欧尔班:欧盟正讨论迫使俄赔偿乌方 从而偿还欧盟贷款

大风新闻 浏览 7045

登贝莱:踢什么位置教练说了算,我很喜欢中锋位置

懂球帝 浏览 4352

比Genesis更显豪华 新款现代Grandeur最新消息曝光

乐选爱车 浏览 207

荣梓杉出轨约妹照曝光!与李禹熹控诉时间吻合,还曾要求对方删照

萌神木木 浏览 3041

控股股东拟出让超1亿股!川股德龙汇能筹划控制权变更 今年股价涨幅近60%

红星资本局 浏览 3715

有望2026年亮相 曝法拉利首款纯电动车谍照

车质网 浏览 3731

韩6旬福利院院长涉嫌性侵4名残障女性 受害者喊其爸爸

大风新闻 浏览 9147

贵州银行:以自身信用承接19亿存款,信托化险突然受宠

密探财经 浏览 2614

固态电池量产提速!超千万新能源车主,竟成被割的 “老韭菜”?

数字财经智库 浏览 4375

小麦身价下跌,德转:仅靠稳定发挥不足以维持高身价,且已29岁

懂球帝 浏览 2977

宇树科技澄清不实信息

第一财经资讯 浏览 2535

苹果被曝开发类ChatGPT应用!专为训练新Siri打造

智东西 浏览 4157

明天会更一部灵异类电影,那就找几张鬼里鬼气的壁纸,大家收图

电影最TOP 浏览 2962

鸿蒙与它的1000万“合伙人”

雪豹财经社 浏览 3064

卡塞米罗:我离开皇马时安帅哭了;吉马良斯是巴西下一代领袖

懂球帝 浏览 293

王菲女儿李嫣疑恋爱!与帅气男生现身机场

二妹扯娱 浏览 2689

伊朗情报部长:伊成功渗透以色列核研究设施

每日经济新闻 浏览 4255

今年冬天最流行的4组叠穿,让你美出新高度!

LinkFashion 浏览 2678

李昀锐和孟子义恋情爆热搜,新剧直接无人在意了

陈意小可爱 浏览 3765

足总杯117年最大冷门!卫冕冠军首战出局,被业余球队淘汰

奥拜尔 浏览 2676

身价第一的全球大网红“野兽先生”哭穷,为啥?

喜欢历史的阿繁 浏览 4223
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1