关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3966人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

东风本田10月销量28896台 1-10月累计终端销量255073台

网易汽车浏览 3548

谢娜演唱会庆功宴现场张杰宠妻半个娱乐圈齐聚

手工制作阿歼浏览 247

全国巡回上坟的大学生，追星追到阴间了

她刊浏览 1080

精彩推荐

这些才是真正接地气的穿搭！裤子基础、外套保暖，简单又自然

静儿时尚达人浏览 2721

女人不管年纪多大，衣柜里都要准备几件衬衫，百搭耐穿又简约

静儿时尚达人浏览 321

伊朗：3117人在骚乱中死亡 2427人是民众和执法人员

界面新闻浏览 2484

源杰科技市值640亿，光芯片竞争激烈，如何撑起高估值？

尺度商业浏览 2666

何小鹏的“回旋镖”与超级增程的“阳谋”

1号车盟浏览 2998

政府关门三周美公务员排长队领救济很多人不想＂露脸＂

每日经济新闻浏览 12552

媒体：不客气地说荷兰是在全球面前抢劫中国企业

环球网资讯浏览 8772

营销悍将赵长江加盟智界，放言智界V9三年内无对手！

车市红点浏览 2721

可逐字复现畅销书，多家巨头AI模型被指存储版权作品

IT之家浏览 2066

美国父亲在家喝酒将2岁女儿留车内致身亡入狱前自杀

红星新闻浏览 10158

比速腾L略小入门级的全新速腾S将发布

网易汽车浏览 2689

营收翻倍+亏损收窄！广东导远自研智驾定位系统，能否凭硬核技术闯关港股？|港E声

时代周报浏览 2710

唐嫣罗晋离婚？她的状态早就说明一切

隔壁灵妹妹浏览 3444

患者花费超14万手术副主任医师把价值10万新器材扔了

重案组37号浏览 4897

上海夫妇骑＂老头乐＂闯灯被撞索赔超70万法院:赔36万

新民晚报浏览 96167

AI里的明争暗斗：马斯克的甜言蜜语，和我们20%的胜率

一点财经浏览 2239

AI让机器写代码变得更聪明：伊利诺伊大学团队破解训练瓶颈新方法

科技行者浏览 3504

王浩然三分绝杀，深圳95-92险胜山东，克里斯空砍30分

懂球帝浏览 2968

清华姚班大神陈立杰，联手00后逆向破局！颠覆50年计算机难题

新智元浏览 3214

搭载华为智驾，奥迪「6系」电车上市，售价30.98万元起｜最前线

36氪浏览 512

彭小苒的逆袭不止“紫衣杀”

小小敏娱乐浏览 3703

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1