爆点资讯

当下主流的视觉语言模型（Vision-Language Models, VLM），通常都采用这样一种设计思路：将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌，但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高，不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO，试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题：如果不依赖预训练的视觉编码器，能否构建出与顶级模块化 VLM 相媲美的原生统一架构？

图丨相关论文（来源：arXiv）

在传统方法中，视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型，这些编码器虽然在视觉理解上表现出色，但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是，视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系，后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂，还需要大量的对齐数据来弥合两个模态之间的鸿沟。

高效训练新标杆！华人开源原生VLM-NEO，以少数据追平顶级模型

官方：勇士正...

五万亿的英伟...

华语乐坛，困...

伊朗高级官员...

缅北四大电诈...

美联储新主席...

极氪12月交付超3万台，2025全年销量超22.4万台

国内牛肉价格稳健背后

特朗普拿错剧本了？刚扬言要禁中国“地沟油”，就遭美媒啪啪打脸

杨超越最新状态曝光！身材颜值全满分！

高芙输球后更衣室摔拍遭外界批评，萨巴一句女人比男人耐热惹争议

上年纪的女人穿“长裤”更气质，这么挑选和搭配，时尚感爆棚

日本平台征集＂批评中国＂视频每条180元日本网民炸锅

这双美鞋从6岁到60+都能穿，穿对了复古又浪漫~

未成年女性称被爱泼斯坦当＂孵化器＂还遭公司高管强奸

苦等14年 50岁贝克汉姆获封英国王室最高爵士头衔

兰州临街商铺突发爆炸致一死事发路段已封锁仍在排查

8年青春换来丈夫出轨，如今张嘉倪让前夫高攀不起

冬季穿衣没想象中那么难，看看这些穿搭就有灵感，保暖又好看

【中超】恩里克2球迪力穆拉提世界波梅州1比4玉昆

闫学晶被代言商索赔，口无遮拦坑了全家

美官员：美军抵达以色列监督加沙停火协议的执行

国产光刻胶攻坚提速，2026年有望爆发！扬帆新材等企业领跑突围

演绎日式豪华MPV 全新日产Elgrand新车图解

多人手机信号深夜同时消失出海7次未带回1条鱼被抓捕

近距离感受国之重器：第一视角看亚洲首个电磁弹射微重力实验装置

肖战主演电影《得闲谨制》，有点东西！

今年冬天最火的穿法：夹克+裤子，时髦又减龄！

特斯拉“连续5年保费”曝光：保险只要1900？比油车还便宜！

刘越：申花最后的点球判罚的太牵强，阿利米踢球合理简练