关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3958人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

强生爽身粉致癌案新进展：被判赔单一原告近70亿元

红星新闻浏览 5053

碰瓷营销还是真有实力创维汽车的“生存者游戏”

网易汽车浏览 1656

海南“半价豪车”真相：代购违规，15年强制报废还得补缴巨款

国际金融报浏览 2896

精彩推荐

美军损失11架＂死神＂无人机特朗普为卖它曾欲改其分类

红星新闻浏览 29016

OpenAI创始团队对簿公堂，马斯克称创办初衷为拯救人类

环球网资讯浏览 528

杠上了！皇马与西甲争议盘点：点球未判、突遭药检、首轮延期被拒

直播吧浏览 4409

长安银行“踩油门”

北京商报浏览 2571

TA：阿莫林对3-4-3的执念，从一开始就注定了他在曼联的失败

懂球帝浏览 2697

荣耀护眼学习机火火兔版发布，2999元

IT之家浏览 2650

下半场7中0背锅？威少8+10+7吞三连败美记：本有机会染指最佳PG

颜小白的篮球梦浏览 2951

换装丰田混动系统！马力提升至219匹！美版2026款CX-50售21万

念寒车评浏览 4135

王健林“限高”已取消，万达知情人士最新回应

红星资本局浏览 4146

全市场：尤文与国米有意穆哈雷莫维奇，但萨索洛要留他到明夏

懂球帝浏览 2979

俄乌战场惊现＂丐帮打法＂俄无人机绑棍子捅落乌无人机

鲁中晨报浏览 9460

诺伊尔说希望自己看上去没有马特乌斯那么老，随后赶紧纠正

懂球帝浏览 4463

现在穿v领毛衣，刚好

Yuki女人故事浏览 2978

硬核风格奥迪Q6 e-tron越野版假想图曝光

车质网浏览 3160

媒体：中美元首会晤让赖清德坐立不宁、寝食难安

环球时报新闻浏览 14440

宗庆后母亲去世，娃哈哈百亿遗产案仍悬

蓝鲨消费浏览 2461

男子称爷爷坟里埋了200万女友给他272万发现其是老赖

潇湘晨报浏览 7496

律师谈吃娃娃菜中毒夫妻被抓：最高判刑十年以上

大象新闻浏览 4711

卫星图像首次发现：伊朗两处受损核设施有＂重大活动＂

澎湃新闻浏览 7114

多只明星基金减仓茅台，为啥茅台不被资本欢迎了？

江瀚视野浏览 288

双电机还不够？三电机都来了新款阿维塔12申报图曝光

网易汽车浏览 2707

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1