关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3757人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

拥有超灵巧机械手,人形机器人North可打乒乓球、组装纸风车

IT之家 浏览 2659

AI录音卡爆火90天:阿里下场,华强北低价围猎,一场恶战在所难免

时代周报 浏览 4362

辽粤会师全运会半决赛!杨鸣:广东占天时地利人和

体坛周报 浏览 3494

8亿买入5%股份!四川国资战略入股湖南百亿锂电龙头,标的前三季度净利大增118.85%

红星资本局 浏览 3584

4万店美宜佳,为何沦为假烟集散地?

斑马消费 浏览 1641

你有没有发现 保时捷越来越像大众了?

网易汽车 浏览 3544

推广|| 被低估的百元级国货!推荐你们趁好价试试

黎贝卡的异想世界 浏览 5527

法拉利撞上护栏后迅速起火 知名游戏大佬被困车内身亡

每日经济新闻 浏览 30901

湖人想要维金斯补充侧翼防守 八村垒+1个首轮签热火能同意吗?

仰卧撑FTUer 浏览 2889

同比增长89.61% 鸿蒙智行11月交付新车81864台

网易汽车 浏览 3085

伊朗一间谍组织被瓦解 其主要成员曾多次前往以色列

极目新闻 浏览 2505

陈晓新剧黯然收官!口碑崩塌评论区沦陷,和前妻陈妍希对打输惨了

萌神木木 浏览 2990

电动车宣称功能永久免费用后却要求付费升级 官方立案

扬子晚报 浏览 31573

林肯航海家特别版上市 一口价25.99万元

车质网 浏览 2657

5人违规穿越鳌太线3人遇难:为规避罚款手机调飞行模式

极目新闻 浏览 7519

重庆女孩不会杀猪上千网友驱车帮忙 有人白送9头活猪

极目新闻 浏览 12521

马斯克宣布X Money四月公测

财闻 浏览 1754

爱泼斯坦案阴影下,高盛或让首席法务官“体面”离开

财通社 浏览 2575

迪丽热巴“扛剧女王”人设崩塌?

孟一宜 浏览 3233

女子1天接五六通催收电话崩溃:欠钱的是不熟的前同事

环球网资讯 浏览 36897

盛合晶微冲刺IPO 募资扩产引争议

北京商报 浏览 3454
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1