关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro1096人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

曝尊界明年将推6款新车 超豪汽车市场要变天了?

正在说车 浏览 73

首席炒黄金期货大赚14亿?国海证券前固收首席靳毅辟谣称已报警

深蓝财经 浏览 804

近13年总决赛勇士和热火共打进12次 但从未正面交锋

直播吧 浏览 16299

香港火灾已致超40人遇难 3名工程负责人涉"误杀"被捕

界面新闻 浏览 25634

网红减肥产品效果来自禁药,副作用远大于减肥作用

趣看热点 浏览 25838

美媒炒作中国大豆采购进度 遭到美国贸易代表直接反驳

澎湃新闻 浏览 13215

卷首语 | “做”出来的女性主义

时尚COSMO 浏览 12452

王俊凯工作室深夜发文退出湖南跨年,因彩排后突发头晕

趣看热点 浏览 26059

2.7亿买下“徐翔家族”实控的宁波中百1888万股,拍卖刚结束股价就闪崩

红星资本局 浏览 875

董秘也“打短工”?道通科技董秘上任5个月即离任

华夏时报 浏览 768

库里37分 克莱24分 卡梅隆-托马斯41分 勇士力克篮网止3连败

直播吧 浏览 13129

女子患小脑萎缩症加重 前男友复合帮她完成100个心愿

极目新闻 浏览 12601

研究人员首次用胎儿脑组织培育出类器官,为研究大脑发育提供新工具

网易科技报道 浏览 12988

俄国际军事论坛计划展出俄军缴获的北约战利品

环球网资讯 浏览 15109

国产AS700载人飞艇获颁型号合格证

极目新闻 浏览 12848

市值过万亿,金牌员工每人发500万!昔日中国首富承诺

每日经济新闻 浏览 19323

陈赫庆生照里看不到鹿晗?

韩小娱 浏览 645

以军空袭加沙南部城市拉法 已致9人死亡

财联社 浏览 12257

多特官宣冬窗首签!桑乔租借回归,三赢交易多特血赚,滕帅赢了

奥拜尔 浏览 13111

中国国家天文:视觉中国把NASA的公版图片都算其版权

上游新闻 浏览 85790

帕普·戈麦斯即将复出

体坛周报 浏览 892
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1