关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3957人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

成龙称以前对儿子太严格了 现在只希望平安开心

韩小娱 浏览 2899

特朗普不解"为什么伊朗还不投降" 伊朗外长回应

CCTV4 浏览 1824

安赛龙回应发球争议:我采用这种发球方式已有多年

懂球帝 浏览 3675

研究发现:若告知消费者广告是由AI生成的,点击率会减少31%

IT之家 浏览 3112

又出血液肿瘤新药!百济神州股价微跌,“创新药一哥”能再造爆款?

猛犸资本局 浏览 2744

内需复苏叠加“反内卷” 聚焦两大方向投资机遇

证券时报 浏览 2035

从“百模大战”到“百镜大战”,AI眼镜成新焦点丨一克商评

封面新闻 浏览 3503

TVB颁奖典礼:佘诗曼黄宗泽拿视帝视后,《新闻女王》成最大赢家

扒虾侃娱 浏览 2782

整车34.98万元/租电24.18万元,蔚来新ES6 30万台纪念版上市

IT之家 浏览 3056

宗馥莉将独立经营“娃小宗” 名下仍关联超200家企业

21世纪经济报道 浏览 3714

穆西亚拉庆祝梦幻回归

绿茵情报局 浏览 2677

间谍入住海景民宿拍军港敏感画面 被民宿店主识破上报

央视新闻客户端 浏览 9995

43天内两度被约谈引关注,携程的奔跑与隐忧

天下财道社 浏览 3705

被章若楠、舒淇带火的毛衣,这样穿太时髦了!

LinkFashion 浏览 2480

59岁蒋雯丽现状让人心酸,一代女神也落寞了?

洲洲影视娱评 浏览 3363

4岁女童20楼坠至13楼被业主拽住 邻居们接力苦撑4分钟

极目新闻 浏览 20265

以军空袭也门首都萨那 以色列多地拉响防空警报

上观新闻 浏览 4156

追觅科技CEO俞浩发声:怼人的员工早就提出离职,我有肚量,不会在意

红星新闻 浏览 2543

腾讯元宝回应AI辱骂用户:小概率下的模型异常输出

中新经纬 浏览 2173

周星驰新片被传空降春节档,制作成本3.8亿,票房能否冲击40亿

娱乐圈笔娱君 浏览 2420

官方:利物浦签下15岁曼城青训门将阿尔菲-杜利

懂球帝 浏览 3929
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1