关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3773人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中移互联网、支付宝、华为合作,打电话也能聊AI、看菜单办业务

IT之家 浏览 2974

何健麒公开无犯罪记录证明,回应前女友涉毒举报

韩小娱 浏览 2515

美媒:乌克兰向美国提交对最新“和平计划”的回复

澎湃新闻 浏览 2967

10倍压缩率,97%解码精度!DeepSeek开源新模型,为何赢得海内外关注

澎湃新闻 浏览 3907

北航团队突破:让AI学会像人一样思考,不必每次都说出来

科技行者 浏览 2360

高市早苗4天上3次新闻联播:玩火者必自焚

看看新闻Knews 浏览 45931

为什么你越保养,皮肤反而越没光?

时尚COSMO 浏览 3036

上海交大突破:单一AI模型实现全视觉创作任务

科技行者 浏览 2731

赵丽颖都救不了!央视新剧《逍遥》播出被吐槽

烈史 浏览 2266

纯电续航达550km 吉利银河A7 EV官图发布

车质网 浏览 1063

“安我股保”假保险的真骗局 传销式推广暗藏陷阱

北京商报 浏览 3197

皮尔斯:雷霆像善于地面缠斗的UFC选手,把你拖垮直到精疲力尽

懂球帝 浏览 211

今秋最撩的“薄外套+裙子”,谁穿谁美!

Yuki女人故事 浏览 5531

特朗普扬言:美国已经变成了一个真正的联合国

参考消息 浏览 24469

广汽启动自主品牌BU改革 昊铂埃安渠道统筹运营

网易汽车 浏览 2965

双剑合璧:科创板、创业板的重大改革与长期投资价值

尺度商业 浏览 3493

2025 FT年度人物:黄仁勋

新智元 浏览 2996

AI时代,寻找超级创业者!徐汇区发布政策扶持一个人赛过一群人的“大牛”

上观新闻 浏览 2293

里程偏差98%时长偏差136% 女子坐网约车被扣费超10倍

新民晚报 浏览 9963

雅达利复刻“前竞争对手”Mattel Intellivision Sprint 游戏机

IT之家 浏览 3670

坎宁安:骑士想要偷走一场胜利,我们没让他们得逞

懂球帝 浏览 342
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1