关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3966人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

这些才是真正接地气的穿搭!裤子基础、外套保暖,简单又自然

静儿时尚达人 浏览 2721

女人不管年纪多大,衣柜里都要准备几件衬衫,百搭耐穿又简约

静儿时尚达人 浏览 321

伊朗:3117人在骚乱中死亡 2427人是民众和执法人员

界面新闻 浏览 2484

源杰科技市值640亿,光芯片竞争激烈,如何撑起高估值?

尺度商业 浏览 2666

何小鹏的“回旋镖”与超级增程的“阳谋”

1号车盟 浏览 2998

政府关门三周美公务员排长队领救济 很多人不想"露脸"

每日经济新闻 浏览 12552

媒体:不客气地说 荷兰是在全球面前抢劫中国企业

环球网资讯 浏览 8772

营销悍将赵长江加盟智界,放言智界V9三年内无对手!

车市红点 浏览 2721

可逐字复现畅销书,多家巨头AI模型被指存储版权作品

IT之家 浏览 2066

美国父亲在家喝酒将2岁女儿留车内致身亡 入狱前自杀

红星新闻 浏览 10158

比速腾L略小 入门级的全新速腾S将发布

网易汽车 浏览 2689

营收翻倍+亏损收窄!广东导远自研智驾定位系统,能否凭硬核技术闯关港股?|港E声

时代周报 浏览 2710

唐嫣罗晋离婚?她的状态早就说明一切

隔壁灵妹妹 浏览 3444

患者花费超14万手术 副主任医师把价值10万新器材扔了

重案组37号 浏览 4897

上海夫妇骑"老头乐"闯灯被撞索赔超70万 法院:赔36万

新民晚报 浏览 96167

AI里的明争暗斗:马斯克的甜言蜜语,和我们20%的胜率

一点财经 浏览 2239

AI让机器写代码变得更聪明:伊利诺伊大学团队破解训练瓶颈新方法

科技行者 浏览 3504

王浩然三分绝杀,深圳95-92险胜山东,克里斯空砍30分

懂球帝 浏览 2968

清华姚班大神陈立杰,联手00后逆向破局!颠覆50年计算机难题

新智元 浏览 3214

搭载华为智驾,奥迪「6系」电车上市,售价30.98万元起|最前线

36氪 浏览 512

彭小苒的逆袭不止“紫衣杀”

小小敏娱乐 浏览 3703
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1