关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技3808人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

拉总:诺坎普改叫梅西球场?不合适

体坛周报 浏览 3023

中国海警:菲方侵闯中国领海 故意冲撞中国海警船

央视新闻客户端 浏览 4437

Pro or Ultra:消息称 iQOO 15 确定会有高配版,目前还在打磨中

IT之家 浏览 3687

3月5日将上市 比亚迪海豹07EV有望搭载闪充技术

网易汽车 浏览 2003

诺和诺德再现高层震荡!董事长等7名高管将集体离职,近一年市值蒸发超千亿美元

时代周报 浏览 3615

巴黎极端球迷在埃菲尔铁塔前非法燃放大量焰火,约40人被逮捕

懂球帝 浏览 2911

理想汽车,又打了一场翻身仗?

电动势 浏览 3607

波音圣路易斯地区罢工持续近三月,谈判陷入僵局

国际金融报 浏览 3586

马杜罗社交平台发布照片 配文称"被绑架已11天"

红星新闻 浏览 8260

纯电续航325km 小鹏P7+增程版申报信息曝光

车质网 浏览 3539

富士通FMV Note A A77-K3笔记本:保留蓝光光驱,搭载AMD 7735U

IT之家 浏览 3764

皮亚斯特里:在F1交到真朋友很难,大家基本来到围场就是竞争

懂球帝 浏览 491

罗斯柴尔德家族现遗产之争:93岁婆婆与60岁儿媳打官司

红星新闻 浏览 19768

杭州男子家中一斤黄金消失找了两天后报警 结局太意外

环球网资讯 浏览 33692

十五五规划建议共15个部分61条 分三大板块

界面新闻 浏览 6029

乌克兰决定与尼加拉瓜断交

参考消息 浏览 2897

可可成本大增 亿滋国际承压

北京商报 浏览 3424

演员孙涛告别春晚:18次登春晚,把舞台给年轻人

素素娱乐 浏览 2461

贡多齐:尤文目前的状态并不理想,我们有足够的实力击败他们

懂球帝 浏览 3614

杠上了!皇马与西甲争议盘点:点球未判、突遭药检、首轮延期被拒

直播吧 浏览 4416

抄底许家印,截胡王健林,这个湖北出来的80后为什么能登顶巅峰?

时评人李文君 浏览 232
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1