关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3787人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

塔帅:赢球能带来能量和信心,我觉得这是足球最重要的两件事

懂球帝 浏览 2557

演员金莎和孙丞潇官宣结婚 两人相差17岁

极目新闻 浏览 60479

辽京:当一个妈妈开始写作

时尚COSMO 浏览 3094

40岁邓莎宣布离婚!直言无法改变路行,将告别过去追求新的人生

萌神木木 浏览 2584

除了阔腿裤,这条裤子今年最流行!

LinkFashion 浏览 1654

香港赛签表公布:吴易昺商竣程领衔,穆塞蒂会否遭嘘?

网球之家 浏览 2724

董路:日本队6届世界杯过不了16强 跟国足24年无缘世界杯一样痛苦

风过乡 浏览 3717

道指重挫800点,IBM跌超13%,白银期货涨超7%,加密货币超16万人爆仓

21世纪经济报道 浏览 2044

泡泡玛特回应79有点贵直播事故;山姆回应支付跳色情网站丨邦早报

创业邦 浏览 3462

哈梅内伊次子接任伊朗最高领袖:一直身居幕后

极目新闻 浏览 1799

实探封关后的海南三亚:消费者无法全岛"零关税"购物

第一财经资讯 浏览 2892

S家洗白失败!韩国综艺锤了小S忽视姐姐病情,推卸责任甩锅给大S

萌神木木 浏览 2455

大众中国市场2025年交付269.38万辆,同比减少8%

IT之家 浏览 2603

4680电池的大饼,马斯克不想画了

远川科技评论 浏览 2623

建设周期长且成本高昂,欧盟多国重拾核能挑战巨大

环球网资讯 浏览 1635

今日热点:卢靖姗韩庚官宣二胎出生;路行退出《再见爱人5》……

伊周潮流 浏览 3058

牛弹琴:中国1天内新部署1艘航母6艘军舰 法媒"醋"了

现代快报 浏览 8780

补能快也智能 奇瑞纯电皮卡威麟R08 EV售12.78万起

网易汽车 浏览 2560

球报总监:穆帅执教切尔西和皇马时不这样,带曼联之后就变了

懂球帝 浏览 2449

短剧副导演拍摄结束两天后在家猝死 两女儿刚放学回家

中国青年报 浏览 33025

专家:高市早苗跟台湾关系较密切 会让大陆比较担忧

澎湃新闻 浏览 6780
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1