关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元918人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美股突然崩了!暴跌700点!苹果、微软大跌7200亿,“特斯拉概念股”暴涨75%!普京大动作:已提交!

中国基金报 浏览 35657

《公诉》收视率狂跌,热巴转型失败真实演技"露馅"

甜小娱儿 浏览 16612

小个子女生冬天怎么穿衣?上宽下紧、体现曲线,显高显瘦舒适

静儿时尚达人 浏览 60

别让丑内搭毁掉你的穿搭!这4款直接封神!

Yuki女人故事 浏览 61

新研究认为马航MH370或在控制下迫降 最快10天能找到

红星新闻 浏览 74338

不许降价!汽车巨额补贴促销动了谁的蛋糕?

能量场 浏览 18255

陈思诚现身佟丽娅新片首映 大赞前妻漂亮有演技

娱絮 浏览 14520

能否做到?拜仁有望成为首支欧冠客战巴黎取得三连胜的球队

懂球帝 浏览 692

女人不管40岁还是60岁,穿搭都要得体大方,冬天试试这么搭配很美

Yuki时尚酱 浏览 13321

百度官宣“文心一言”云服务将于3月27日上线

Tech星球 浏览 19457

109-94!约基奇大号三双创纪录,掘金客胜热火,总决赛2-1领先

ALL体育 浏览 16896

朱媛媛去世后辛柏青首露正脸,眼神空洞憔悴

胡一舸南游y 浏览 782

今年第三次!53万的理想MEGA烧了,奶爸:不敢想象

说财猫 浏览 842

欧冠首秀造乌龙,堂安律社媒:如梦似幻并顺利取胜,感谢球迷支持

直播吧 浏览 1683

初秋的第一套Look,当然是和坎肩最配

时装男士杂志 浏览 15101

神奇出租车:用最廉价汽油 为何98万公里不大修?

汽车安利会 浏览 12561

美防长亲口承认对乌支持“利好”美经济

国际在线 浏览 12690

2023春夏流行总结,短裤可以搭一切

Bordine的时尚时刻 浏览 16176

明朝的戚继光在哪一个皇帝的朝廷任职?

趣看热点 浏览 26061

今年秋天一定要拥有的10件单品,时髦又高级!

LinkFashion 浏览 1006

继承纠纷秘而不宣 杉杉股份或涉信披违规

清流 浏览 18386
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1