关闭广告

超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

新智元3773人阅读

新智元报道

编辑：LRST

【新智元导读】Meta开源DepthLM，首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略，DepthLM精准完成像素级深度估计等任务，解锁VLM多任务处理潜力，为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中，视觉语言模型（Vision Language Models, VLMs）因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而，尽管在语义理解、视觉问答、图像指令等任务上表现优异，它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下，纯视觉模型（pure vision models）在绝对深度估计（metric depth estimation）等三维理解任务上，凭借专门设计的网络结构与损失函数，早已达到了超越人类的精度。

这就带来了一个核心问题：「视觉语言模型是否有可能不更改其标准架

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

一家6口迪拜旅游被滞留 3个老人患病降压药得掰一半吃

大象新闻浏览 37404

第二代腾势D9插混版亮相搭载闪充技术

网易汽车浏览 1721

真相来了！前经纪人为保剑锋发声，曝光离婚时间线，实锤男方出轨

萌神木木浏览 2550

精彩推荐

中移互联网、支付宝、华为合作，打电话也能聊AI、看菜单办业务

IT之家浏览 2974

何健麒公开无犯罪记录证明，回应前女友涉毒举报

韩小娱浏览 2515

美媒：乌克兰向美国提交对最新“和平计划”的回复

澎湃新闻浏览 2967

10倍压缩率，97%解码精度！DeepSeek开源新模型，为何赢得海内外关注

澎湃新闻浏览 3907

北航团队突破：让AI学会像人一样思考，不必每次都说出来

科技行者浏览 2360

高市早苗4天上3次新闻联播：玩火者必自焚

看看新闻Knews 浏览 45931

为什么你越保养，皮肤反而越没光？

时尚COSMO 浏览 3036

上海交大突破：单一AI模型实现全视觉创作任务

科技行者浏览 2731

赵丽颖都救不了！央视新剧《逍遥》播出被吐槽

烈史浏览 2266

纯电续航达550km 吉利银河A7 EV官图发布

车质网浏览 1063

“安我股保”假保险的真骗局传销式推广暗藏陷阱

北京商报浏览 3197

皮尔斯：雷霆像善于地面缠斗的UFC选手，把你拖垮直到精疲力尽

懂球帝浏览 211

今秋最撩的“薄外套+裙子”，谁穿谁美！

Yuki女人故事浏览 5531

特朗普扬言：美国已经变成了一个真正的联合国

参考消息浏览 24469

广汽启动自主品牌BU改革昊铂埃安渠道统筹运营

网易汽车浏览 2965

双剑合璧：科创板、创业板的重大改革与长期投资价值

尺度商业浏览 3493

2025 FT年度人物：黄仁勋

新智元浏览 2996

AI时代，寻找超级创业者！徐汇区发布政策扶持一个人赛过一群人的“大牛”

上观新闻浏览 2293

里程偏差98%时长偏差136% 女子坐网约车被扣费超10倍

新民晚报浏览 9963

雅达利复刻“前竞争对手”Mattel Intellivision Sprint 游戏机

IT之家浏览 3670

坎宁安：骑士想要偷走一场胜利，我们没让他们得逞

懂球帝浏览 342

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1