关闭广告

超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

新智元3768人阅读

新智元报道

编辑：LRST

【新智元导读】Meta开源DepthLM，首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略，DepthLM精准完成像素级深度估计等任务，解锁VLM多任务处理潜力，为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中，视觉语言模型（Vision Language Models, VLMs）因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而，尽管在语义理解、视觉问答、图像指令等任务上表现优异，它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下，纯视觉模型（pure vision models）在绝对深度估计（metric depth estimation）等三维理解任务上，凭借专门设计的网络结构与损失函数，早已达到了超越人类的精度。

这就带来了一个核心问题：「视觉语言模型是否有可能不更改其标准架

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

B股，最后的金矿？

36氪财经浏览 2625

资产上亿女老板突然失联知情人：疑似被骗去泰国

上观新闻浏览 22820

48小时内＂拔管＂可获百万赔偿儿子坚持救父＂人财两失＂

新京报浏览 12758

精彩推荐

闻泰科技回应：个别外籍高管试图颠覆公司治理结构

澎湃新闻浏览 7394

TIGIT的转机还会出现吗？

钛媒体APP 浏览 3084

或成新公路之王! 极氪8X预售37.68万起

网易汽车浏览 1719

将于2027年上市 AMG CLA猎装车谍照曝光

车质网浏览 2385

阿姨遛狗被狗绳拽入电梯井多处内脏破裂

极目新闻浏览 8238

智元机器人公布面向机器人的人工智能策略训练专利

财闻浏览 1676

软银清仓英伟达，孙正义套现415亿

YOUNG财经浏览 3457

官方：克雷马斯基当选美国2025年度最佳青年球员

懂球帝浏览 2416

英伟达砸20亿入股EDA巨头黄仁勋赞＂巨大扩展机遇＂

华尔街见闻官方浏览 3138

曼联6500万签塞门约计划细节曝光！只有20天操作，已讨论个人待遇

罗米的曼联博客浏览 3003

剑南春｜国米2-1客胜维罗纳，泽林斯基破门，皮奥造乌龙绝杀

懂球帝浏览 3370

罗晋婚变疑云再升级，任素汐也遭殃

可乐谈情感浏览 2290

伊姐元旦热推：电视剧《人之初》；电视剧《轻年》......

伊周潮流浏览 2755

黄金价格走势疯狂，最牛概念股1年价格飙涨超500%

览富财经网浏览 2522

腾势汽车12月销售18139辆全年累计157134辆

网易汽车浏览 2734

三瑞智能实控人一股独大，国泰海通前员工火速入职，子公司与大客户疑似“隐秘关联”|读懂IPO

时代周报浏览 2777

《逍遥》大结局：秉烛结束了红烨，肖瑶曾为妖王！

肆季娱乐浏览 2793

赛季末巴黎频造新大师，这次小黑能一黑到底吗？

网球之家浏览 3575

马龙社媒回复王楚钦生日祝福：还要靠你呢

懂球帝浏览 3686

战斗气息十足全新AMG GT内饰官图发布

车质网浏览 1797

今年一定要拥有这件大衣，复古又时髦！

LinkFashion 浏览 3410

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1