关闭广告

GUI自动化的新突破:ServiceNow让AI更准确定位屏幕界面元素

科技行者3652人阅读


这项由ServiceNow、魁北克人工智能研究院、蒙特利尔大学、约克大学、蒙特利尔理工学院和麦吉尔大学联合进行的研究发表于2025年10月,论文编号为arXiv:2510.03230v1。研究团队由王苏宇辰、张天宇、Ahmed Masry、Christopher Pal、Spandana Gella、刘邦和Perouz Taslakian等学者组成,他们致力于解决人工智能在GUI(图形用户界面)自动化中面临的核心难题。有兴趣深入了解的读者可以通过论文编号arXiv:2510.03230v1查询完整论文。

现代生活中,我们每天都要与各种软件界面打交道——从手机应用到电脑程序,从网页浏览到办公软件。如果能让人工智能像人类一样准确地识别和操作这些界面元素,将会极大提升工作效率。然而,要让AI准确找到屏幕上的按钮、文本框或菜单项,就像要求一个从未见过地图的人在陌生城市中找到特定建筑物一样困难。

这项研究的核心贡献在于解决了当前视觉语言模型在GUI定位任务中的一个根本性问题:如何将自然语言指令准确转换为屏幕上的像素坐标。研究团队发现,现有方法就像让一个盲人通过触摸来画地图一样效率低下,因为AI模型需要在没有明确参照物的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

鲁本-迪亚斯:经验告诉我们,如果不在最佳状态就无法夺冠

懂球帝 浏览 2945

冬季穿搭要避开臃肿感!配色不老气、穿衣不随意,越看越高级

静儿时尚达人 浏览 1867

中国汽车出海,插混和增程将是巨大的“机会点”

汽车公社 浏览 2727

一个手机壳卖200,这家深圳公司靠什么掏空老外钱包?

花朵财经 浏览 2526

美媒:美军已向特朗普提交对委内瑞拉动武方案

环球网资讯 浏览 3302

碧姬·芭铎,“穿衣自由”概念的祖师奶

时尚COSMO 浏览 2201

IPO倒计时,解码希迪智驾“攻守道”

第一财经资讯 浏览 3062

5分钟充满电!全球首款可量产全固态电池来了

21世纪经济报道 浏览 2752

17岁男生提供电话卡给网诈团伙被判8个月 称获利997元

红星新闻 浏览 9450

集微咨询发布《2025中国电源管理芯片行业上市公司研究报告》

爱集微 浏览 2950

牛弹琴:战机又被照射后日本急了 有人第一个想到中国

现代快报 浏览 13090

豪掷近5000万买豪宅,曾被马云看重的男人身家68亿

雷达财经 浏览 3542

细节调整 新款享界S9纯电版申报图曝光

车质网 浏览 3900

加啥班啊!某车企被曝三点半,员工就陆续下班了

小李车评李建红 浏览 2967

拉门斯:阿莫林把压力放在自己身上,他为我们承担了很多压力

懂球帝 浏览 3773

小米米家空调迎“智能诊断”功能,可联网远程识别设备异常状态

IT之家 浏览 3613

限时先享价25.98万元 吉利银河M9黑金智曜版上市

网易汽车 浏览 533

美2027财年国防预算恐创纪录 五角大楼查女兵"有效性"

红星新闻 浏览 13369

王一博风波升级!吐槽肖战等十几位明星

阿废冷眼观察所 浏览 1954

这才是打开秋季的穿衣方式!衣服不贪多、搭配得体,养眼舒适

静儿时尚达人 浏览 5534

谁逆袭谁掉队?43家券商业绩全景复盘

国际金融报 浏览 249
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1