关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元917人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

绿帽哥:切尔西就罗德里戈与皇马展开接触,计划冬窗完成交易

懂球帝 浏览 562

满清唯一皇太子:文武双全,因人格分裂被废,最终被囚禁而死

趣看热点 浏览 26336

购车补贴是双刃剑,弱势车企只是被加速淘汰?

百姓评车 浏览 12112

CBS:错过梅西,利雅得新月准备4500万欧报价内马尔&提供2亿年薪

直播吧 浏览 16605

你不知道的《城市猎人》幕后冷知识_是王晶与成龙首次也是唯一一次合作

趣看热点 浏览 26357

女子将老公绑床上防出轨 被家暴不离婚:他太帅 舍不得

社会奇闻君 浏览 92439

美国要向乌克兰援助巡逻艇,俄媒:美军不想要的

环球军事时报 浏览 25574

特斯拉将在明年1月提高内华达超级工厂部分工人时薪

界面新闻 浏览 12669

加速推进!机器人板块传出大消息!

扬子晚报 浏览 182

缩减配套募资额近五成 军信股份重大资产重组即将上会

经济参考报 浏览 11256

《数据周报88》:70大中城市房价全线下跌

智本社 浏览 797

伍伦盼:泰国队客场保障一切到位,吃得好睡得好训练场地也很好

直播吧 浏览 10880

申花2战柔佛全败!亚冠客场5年不胜,东亚区排第10,延续4魔咒

奥拜尔 浏览 688

外媒曝Jennie将加入漫威 或出演亚洲超级英雄电影

网易娱乐 浏览 16805

大批乌军乔装入境,俄军不得不转移注意力!

浏览 11091

面相变了!看活动上“挂脸”的杨幂,才懂林永健对她的评价

娱乐圈笔娱君 浏览 850

拉波尔塔怒怼特巴斯:又摘下了假面具,显示自己是反巴萨主义者

直播吧 浏览 18983

内维尔:利物浦夏窗表现不佳与转会负责人员有关

直播吧 浏览 14438

十九大以来西藏"首虎"获刑 曾是当地政府最年轻副主席

政知新媒体 浏览 73875

刘润:企业盈利的5种模型

创业家 浏览 973

瑞幸咖啡打假泰国"瑞幸"失败 被对方起诉索赔20亿

每日经济新闻 浏览 74572
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1