关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3953人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

全球首座无人车“来电岛”在青岛启用，三年内落地百城

IT之家浏览 231

全智贤新剧跌破平台下线，迪士尼2亿投资亏本，业内直言堪称灾难

萌神木木浏览 3318

NBA战报：雷霆94-91险胜掘金，沃特森15分

懂球帝浏览 3721

精彩推荐

第三届鸟巢数字体验节启幕：机器人嘉年华打造未来生活新场景

环球网资讯浏览 3771

BaaS方案售20.8万起蔚来ET5/ET5T远空套装版上市

网易汽车浏览 3006

巴尔韦德：皇马有我信任的理疗师，我都听他的

懂球帝浏览 1689

王菲没想到女儿窦靖童，会以头秃理由嫌弃亲爹

千言娱乐记浏览 3553

泽连斯基新年致辞：不要＂乌克兰的终结＂

中国经济网浏览 2796

记者：成都是最国企的俱乐部，现在应关心周定洋和莱切特续约

懂球帝浏览 2990

足球报：海牛资金有困难，但追加奖金第一时间就发到球队手中

懂球帝浏览 3462

绿色+棕色、蓝色+棕色，这3组配色高级又好看！

LinkFashion 浏览 2606

好心载同事却出车祸遭索赔法院:司机承担60%赔偿责任

极目新闻浏览 8859

年内首家省级农商行挂牌不到20天，快马加鞭启动第二批机构合并

湘财Plus 浏览 1055

大衣别这么穿，显黑又显胖！

Yuki女人故事浏览 3433

哈马斯同意“20点计划”提议：释放所有以色列人质

央视新闻客户端浏览 3864

美伊和谈再度生变伊朗称应依法没收敌方合作者财产

每日经济新闻浏览 30970

中国代表：日本必须深刻反省历史罪责停止挑衅越线

新华社浏览 3037

特斯拉与迪士尼合作引争议：车机引入《创：战神》车模被指广告

IT之家浏览 3767

湖人想要维金斯补充侧翼防守八村垒+1个首轮签热火能同意吗？

仰卧撑FTUer 浏览 2897

闻泰科技回应：个别外籍高管试图颠覆公司治理结构

澎湃新闻浏览 7394

我国电动船舶锂电池安全防控技术实现新突破

新华社浏览 2829

秦煌如今过成这样只能算他活该？

一针见娱浏览 3728

果园8.8元＂偷橘子＂：一晚卖几百斤抓人的狗都累瘫了

红星新闻浏览 16189

吃相难看！史晓燕曝何晴离婚有隐情，力挺许亚军

収起了底线浏览 2988

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1