关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3953人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

第三届鸟巢数字体验节启幕:机器人嘉年华打造未来生活新场景

环球网资讯 浏览 3771

BaaS方案售20.8万起 蔚来ET5/ET5T远空套装版上市

网易汽车 浏览 3006

巴尔韦德:皇马有我信任的理疗师,我都听他的

懂球帝 浏览 1689

王菲没想到女儿窦靖童,会以头秃理由嫌弃亲爹

千言娱乐记 浏览 3553

泽连斯基新年致辞:不要"乌克兰的终结"

中国经济网 浏览 2796

记者:成都是最国企的俱乐部,现在应关心周定洋和莱切特续约

懂球帝 浏览 2990

足球报:海牛资金有困难,但追加奖金第一时间就发到球队手中

懂球帝 浏览 3462

绿色+棕色、蓝色+棕色,这3组配色高级又好看!

LinkFashion 浏览 2606

好心载同事却出车祸遭索赔 法院:司机承担60%赔偿责任

极目新闻 浏览 8859

年内首家省级农商行挂牌不到20天,快马加鞭启动第二批机构合并

湘财Plus 浏览 1055

大衣别这么穿,显黑又显胖!

Yuki女人故事 浏览 3433

哈马斯同意“20点计划”提议:释放所有以色列人质

央视新闻客户端 浏览 3864

美伊和谈再度生变 伊朗称应依法没收敌方合作者财产

每日经济新闻 浏览 30970

中国代表:日本必须深刻反省历史罪责停止挑衅越线

新华社 浏览 3037

特斯拉与迪士尼合作引争议:车机引入《创:战神》车模被指广告

IT之家 浏览 3767

湖人想要维金斯补充侧翼防守 八村垒+1个首轮签热火能同意吗?

仰卧撑FTUer 浏览 2897

闻泰科技回应:个别外籍高管试图颠覆公司治理结构

澎湃新闻 浏览 7394

我国电动船舶锂电池安全防控技术实现新突破

新华社 浏览 2829

秦煌如今过成这样只能算他活该?

一针见娱 浏览 3728

果园8.8元"偷橘子":一晚卖几百斤 抓人的狗都累瘫了

红星新闻 浏览 16189

吃相难看!史晓燕曝何晴离婚有隐情,力挺许亚军

収起了底线 浏览 2988
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1