关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技3801人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

杨超越最新状态曝光!身材颜值全满分!

草莓解说体育 浏览 3811

高芙输球后更衣室摔拍遭外界批评,萨巴一句女人比男人耐热惹争议

网球之家 浏览 2505

上年纪的女人穿“长裤”更气质,这么挑选和搭配,时尚感爆棚

静儿时尚达人 浏览 3601

日本平台征集"批评中国"视频每条180元 日本网民炸锅

极目新闻 浏览 14019

这双美鞋从6岁到60+都能穿,穿对了复古又浪漫~

黎贝卡的异想世界 浏览 5396

未成年女性称被爱泼斯坦当"孵化器" 还遭公司高管强奸

红星新闻 浏览 99947

苦等14年 50岁贝克汉姆获封英国王室最高爵士头衔

封面新闻 浏览 16007

兰州临街商铺突发爆炸致一死 事发路段已封锁仍在排查

大风新闻 浏览 3717

8年青春换来丈夫出轨,如今张嘉倪让前夫高攀不起

画画影视 浏览 2935

冬季穿衣没想象中那么难,看看这些穿搭就有灵感,保暖又好看

静儿时尚达人 浏览 3283

【中超】恩里克2球迪力穆拉提世界波 梅州1比4玉昆

体坛周报 浏览 3602

闫学晶被代言商索赔,口无遮拦坑了全家

萌神木木 浏览 2726

美官员:美军抵达以色列 监督加沙停火协议的执行

环球时报国际 浏览 3781

国产光刻胶攻坚提速,2026年有望爆发!扬帆新材等企业领跑突围

览富财经网 浏览 2595

演绎日式豪华MPV 全新日产Elgrand新车图解

车质网 浏览 3084

多人手机信号深夜同时消失 出海7次未带回1条鱼被抓捕

极目新闻 浏览 8008

近距离感受国之重器:第一视角看亚洲首个电磁弹射微重力实验装置

IT之家 浏览 3770

肖战主演电影《得闲谨制》,有点东西!

不八卦会死星人 浏览 2969

今年冬天最火的穿法:夹克+裤子,时髦又减龄!

LinkFashion 浏览 2876

特斯拉“连续5年保费”曝光:保险只要1900?比油车还便宜!

少数派报告Report 浏览 2642

刘越:申花最后的点球判罚的太牵强,阿利米踢球合理简练

懂球帝 浏览 3560
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1