关闭广告

南洋理工、腾讯等机构联手突破:让AI像人一样"指点"图片中的东西

科技行者602人阅读


你有没有试过这样的体验:跟朋友聊天时,你想让他看看照片里的某个东西,但又不知道怎么准确描述它的位置?你可能会说"就是那个红色的杯子",朋友却问"哪个红色杯子?"这种沟通障碍在人工智能领域同样存在,而且更加复杂。

由南洋理工大学、腾讯微信视觉团队、新加坡科技研究局等多家知名机构组成的国际研究团队,最近在这个问题上取得了重要突破。他们的研究成果发表在了计算机视觉领域的顶级学术平台上,论文题目是"PATCH-AS-DECODABLE-TOKEN: TOWARDS UNIFIED MULTI-MODAL VISION TASKS IN MLLMS"(arXiv:2510.01954v1),感兴趣的读者可以通过这个编号查阅完整论文。

这项研究解决的核心问题可以用一个简单场景来理解:当你问AI"这张照片里有什么?"时,传统AI只能告诉你"有一只猫、一个杯子、一张桌子",但它无法像人一样直接"指出"这些东西的具体位置。更糟糕的是,当你要求AI找到"桌子上那个蓝色杯子"时,它往往会给出一串看起来很专业但实际上并不准确的数字坐标,比如"[245, 156, 378, 298]",普通人根本无法理解这些数字代表什么。

<
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中年男子自拍图火出圈 凭借"三副面孔"成新晋网红

国是直通车 浏览 74252

国情咨文演讲中使用"非法"一词形容移民后 拜登后悔了

环球网资讯 浏览 77641

黄一鸣才真清醒,大四怀孕不做“首富太太”

柠檬有娱乐 浏览 63

环球圆桌对话:G7打造“稀土联盟”更像是政治表演

环球网资讯 浏览 868

苏永康被曝出轨!劣迹太多网友呼吁封杀?

萌神木木 浏览 588

明明精心打扮,看起来还是比同龄人显老?

猫姐品衣有道 浏览 13502

马克龙透露约20国将组建"威慑部队" 以保障乌克兰安全

看看新闻Knews 浏览 30212

市场急呼降息,央行们觉得还可以再等等看

Wind万得 浏览 12493

广厦23分负青岛 许钟豪首秀8+10费尔德三分6中1

网易体育 浏览 26521

乌兹别克斯坦2-1泰国!时隔9年重返亚洲杯8强,将战卡塔尔争进4强

侃球熊弟 浏览 12542

向佐郭碧婷逛街被偶遇,1岁儿子在母亲怀里熟睡

扒虾侃娱 浏览 16312

包工头把交警儿子做进工资表冒领工地工资:我欠儿子钱

大风新闻 浏览 1071

美媒:有偿收集情报 有多少美国记者在为CIA工作?

环球网资讯 浏览 19799

汪小菲与女儿互动 小玥儿自曝希望爸爸不再生小孩

娱记新资 浏览 15029

金鸡国产电影展|片单发布:百廿回眸,新程再启

幕味儿 浏览 763

宁波网球公开赛:袁悦2-0战胜王欣瑜,晋级女单16强

懂球帝 浏览 978

外卖小哥蹊跷失踪22天:凌晨独自到水库 现场找到电动车

极目新闻 浏览 995

持股市值惨遭“脚踝斩”,徐翔打响“资产保卫战”

华夏时报 浏览 18249

第37届电影百花奖来了,看完提名名单,我要说:内娱影坛要完了!

娱乐圈笔娱君 浏览 10784

足力健卖水饺,吃干榨净老年人?

斑马消费 浏览 1655

浙商银行前三季度经营稳健,总营收489.31亿元

证券市场周刊 浏览 791
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1