关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3780人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

内塔尼亚胡被指传话无意攻击伊朗 与其公开表态相背离

红星新闻 浏览 9043

太阳报:曼联17岁中场思韦茨随一线队训练,被比作佩德里

懂球帝 浏览 3930

收手吧沈腾,新片耗资1亿,预售票房仅15万

靠谱电影君 浏览 2904

联合国秘书长:美国对委军事行动未尊重国际法规则

澎湃新闻 浏览 2714

名记:威少对去海外打球的兴趣为零,他专注于在NBA打球

懂球帝 浏览 3794

比亚迪元PLUS高功率版曝光 电机功率增至230千瓦

网易汽车 浏览 3899

女子不喜欢名字"丽春"多次申请改名被拒 县公安局回应

环球网资讯 浏览 16693

伊朗外长:美封锁港口是战争行为

环球网资讯 浏览 32164

47岁冯绍峰颜值回春,自称是威尼斯影后的朋友

扒虾侃娱 浏览 3420

闫学晶"哭穷"后多账号被禁止关注 其代言品牌:将索赔

红星新闻 浏览 7913

官方:利物浦签下15岁曼城青训门将阿尔菲-杜利

懂球帝 浏览 3936

杨振宁留给中国的最重要遗产,恰恰很不“中国味”

钛媒体APP 浏览 3628

官方:田玉达加盟辽宁铁人

懂球帝 浏览 2571

长和:董事会对巴拿马之裁定及相应行动表示强烈反对

每日经济新闻 浏览 4686

伊姐周日热推:电视剧《依依向北风》;电视剧《水龙吟》......

伊周潮流 浏览 3119

欧拉全新SUV亮相,或叫“欧拉5”?

电动邦 浏览 4465

一年暴涨1663%的牛股,玩砸了!

深蓝财经 浏览 2359

100小时极寒挑战,董明珠图啥?

中国新闻周刊 浏览 2935

超34.2万人爆仓,比特币一度跌破10万美元关口

观察者网 浏览 3466

哥伦比亚总统硬刚特朗普:不要用军事行动惊扰“美洲豹”

红星新闻 浏览 3065

苹果发布 iPhone 17e 搭载 A19 芯片 4499 元起售

威锋网 浏览 1946
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1