关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元919人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美国新冠死亡逼近50万,纽约时报头版布满了黑点

趣看热点 浏览 117038

因王一博言论被气到脸都绿了?导演大鹏:少玩我

钱小刀娱乐 浏览 14904

章子怡任中戏表演系考官 考试现场轻松活泼

网易娱乐 浏览 19369

一笑随歌李沁陈哲远短短37秒吻戏床戏都上尺度了

陈意小可爱 浏览 1031

奚梦瑶带何超欣为甘比捧场 两大阔太同框似同龄人

萌神木木 浏览 12586

詹姆斯:本周将接受左脚踝的治疗 可能会缺席接下来与勇士比赛

直播吧 浏览 12332

王宝强没想到,和马蓉离婚9年后,自己的一双儿女开始为他争光了

TVB的四小花 浏览 1602

高德杀入美团百度腹地,马云其实要和刘强东大决战?

BT财经 浏览 539

京东物流上半年总收入778亿元,同比增长32.6%

网易科技报道 浏览 14330

足球报:J联赛改为跨年赛制,将对降雪地区俱乐部补贴50亿

懂球帝 浏览 772

多项功能优化,护卫舰07将开启新一轮OTA升级

天天汽车 浏览 12342

艾科维曾通过外部客户转贷逾千万元 两家“0人”供应商合计撑起超五千万元采购额

金证研 浏览 984

杨紫一家三口同框,难怪杨紫是美女呢

草莓解说体育 浏览 685

他一夜干出2个英特尔,风头盖过马斯克

华商韬略 浏览 16396

人人参与!快船半场九人轮换全部有得分入账

直播吧 浏览 12648

要摊牌邮报:桑乔将与滕哈赫直接对话,有人认为滕帅优待安东尼

直播吧 浏览 14182

中南双能卫渴望逐梦CBA:希望能冲击下 想去宏远

网易体育 浏览 17236

赖清德胜选后退出"新潮流"系 岛内猜测其或成立新派系

环球网资讯 浏览 78152

特斯拉新Model Y售价曝光!入门版售价下降,上半年国产开售

网上车市 浏览 12398

有种的冲这儿打!

电影最TOP 浏览 959

在美流浪博士:目前的最大心愿是好好工作 过体面日子

都市快报橙柿互动 浏览 74974
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1