关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro1074人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

乌副外长发“最后通牒”:要求德国提供更多军备

看看新闻Knews 浏览 18659

一斤豆芽28.8元,杨国福的天价麻辣烫到底卖给谁?

江瀚视野 浏览 674

陕西延安致11死瓦斯爆炸事故细节披露:抽烟点火引起

新京报 浏览 70500

湖人92-100不敌太阳,大比分被扳成2-2平,詹姆斯准备好独自带队挑战

趣看热点 浏览 26091

马卡:皇马将在国家德比展出巨型TIFO,彰显俱乐部的历史

懂球帝 浏览 803

多家高校发公告将暂停使用微信支付,腾讯回应

IT之家 浏览 15559

曝特朗普要攻击拜登,卸任后将首次公开露面并讲话

趣看热点 浏览 220302

"网游大佬"陈天桥成美国"大地主" 曾靠盛大套现88亿

封面新闻 浏览 75270

Stop!这样化妆可是超级显老的!

《瑞丽服饰美容》 浏览 19624

看多A股!多家外资高调发声

中国基金报 浏览 18902

韩寒低调,电影却不低调

幕味儿 浏览 12703

光伏产业链最强分支!光伏玻璃龙头四连板,A股上市公司名单及相关产能一览

科创板日报 浏览 12353

中国女足战胜韩国女足,获得晋级东京奥运会的入场券

趣看热点 浏览 25785

特朗普与高市早苗首次会晤 外交部回应

政知新媒体 浏览 12854

冲绳知事7月将第三次访华:冲绳绝不能再次沦为战场

环球网资讯 浏览 15473

年末商战打响,京东采销喊话拼多多

第一财经资讯 浏览 12615

737MAX事故多发,监管如何做?

澎湃新闻 浏览 12625

申万宏源:牛市1.0高点看26年春季 关注储能、存储、创新药与国防军工

智通财经 浏览 528

轰20战略轰炸机或即将首飞,美国媒体已经把害怕打在屏幕上

趣看热点 浏览 26013

邮报:英超裁判主管霍华德-韦伯因当值裁判误判向狼队道歉

直播吧 浏览 14430

2024年奥斯卡奇葩看点多:宠物狗台下鼓掌,颁奖明星全裸上阵

萌神木木 浏览 11897
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1