关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3767人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

首个有期徒刑正式宣判,恒大、中植“关键人”一个都跑不了!

深蓝财经 浏览 3470

万斯:照顾美国老年人比援助乌克兰重要

参考消息 浏览 8454

国亮新材IPO:行业产能过剩、竞争对手强大,未来发展出路在哪里

览富财经网 浏览 3489

小区居民被大型空调设备震得神经衰弱 多次报警仍无果

环球网资讯 浏览 6782

到底什么人还在买油车?终于我悟了

汽车公社 浏览 2977

碳酸锂价格,巨震!

证券时报 浏览 3242

美军火商称俄乌冲突及巴以冲突推动利润增长

环球网资讯 浏览 3687

长城汽车10月销售新车14.31万辆 同比增长22.5%

网易汽车 浏览 3541

哈马斯称以色列未履行停火协议 呼吁美方施压

国际在线 浏览 2897

斯基拉:尤文派出球探考察萨索洛中场伊斯梅尔-科内

懂球帝 浏览 1703

荣梓衫工作室回应偏轨事件,暴力行径揭露阴暗面

二凯训猛犬 浏览 3800

官方:福建浔兴SBS俱乐部签下法国中锋约安-马昆杜

懂球帝 浏览 1812

把玄戒O1念成“玄戒零一”,雷军认错:确实是讲错了

三言科技 浏览 2717

特朗普转发针对古巴强硬言论:鲁比奥将成"古巴总统"

环球时报国际 浏览 12087

男子将热水器钢管通电致妻子触电身亡 女儿向法院求情

红星新闻 浏览 10551

净利腰斩 “非洲之王”传音失速

北京商报 浏览 2423

快船今日首发中有4人34+岁,NBA近9年来首队

懂球帝 浏览 2280

他靠演反派爆火却对同事女儿一见钟情

张发林 浏览 4387

盲打!快船和掘金比赛连续出现计时器故障,裁判被迫手动计时

懂球帝 浏览 3688

美官员称伊朗战事成本或达500亿美元 为官方披露两倍

极目新闻 浏览 296

59岁蒋雯丽现状让人心酸,一代女神也落寞了?

洲洲影视娱评 浏览 3359
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1