关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技3799人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

数十农民工被拖欠百万工钱 劳务公司:争取春节前兑付

大风新闻 浏览 5634

北约:将考虑对俄罗斯发动“先发制人”的打击

环球网资讯 浏览 16545

瓜迪奥拉:胡桑诺夫明天可上场踢几分钟;罗德里还没完全恢复

懂球帝 浏览 3652

限量555台 蔚来新ET5T暗影套装限定车型售31.6万

网易汽车 浏览 3778

冬季穿衣不用太复杂!内搭选高领、外套选简约款,大方又耐看

静儿时尚达人 浏览 2025

美军突袭马杜罗的秘密武器 遭特朗普披露

环球时报国际 浏览 2486

算法工程师想在女友面前秀技术“养龙虾”,结果文件夹被全删 周鸿祎称“龙虾”更像个实习生

红星新闻 浏览 1767

李彬彬|一个生态保护者的守望之心

时尚COSMO 浏览 1044

柬泰冲突细节披露 洪森要求部队“克制”

新华社 浏览 3123

外媒称“美国指控古巴军队在乌克兰作战” 古巴驳斥

环球网资讯 浏览 3811

雷军回应小字营销:确实是行业陋习 马上就改

网易汽车 浏览 2769

“Mag 7”过时了?华尔街想要AI!

华尔街见闻官方 浏览 4152

NBA“底薪”高能15人!谁拿着60万干1000万的活?

体坛周报 浏览 3001

八大国家队世界杯进球榜:克洛泽16球第1,大罗第2,梅西第3

懂球帝 浏览 3752

湖北U20 1-0山东U20,范绪林点射制胜

懂球帝 浏览 2904

7年联姻终止!蔚来合资公司注销

敖博管理 浏览 4398

奥特曼的“印钞机”与“吞金兽”:OpenAI年化营收超200亿美元背后的豪赌

澎湃新闻 浏览 2605

71岁朱时茂近况曝光!曾连续登春晚舞台

汪巗的创业之路 浏览 2024

换了四辆车之后,我对六座SUV彻底失望了,这些家庭要买更不推荐

小李车评李建红 浏览 4300

配置升级 2026款雷克萨斯LS官图正式发布

车质网 浏览 3485

窦骁何超莲不忍了合体发文,公开回应婚变

一娱三分地 浏览 3486
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1