关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者3547人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

扎哈罗娃:俄罗斯保留对日本采取强硬回应的权利

环球网资讯 浏览 3166

意甲12月最佳候选:霍伊伦、劳塔罗、普利希奇、弗拉希奇在列

懂球帝 浏览 2595

堪称“平民保时捷”!11月13日预售,续航1500km

隔壁说车老王 浏览 3429

上海81岁外公卖房还债租房照顾2个未成年外籍外孙女

大风新闻 浏览 112830

长征十二号甲火箭首飞入轨,一级未能成功回收

上观新闻 浏览 2854

中国女足在进攻三区传球成功率仅为64%,为四强球队中最低

懂球帝 浏览 1721

SpaceX:识别并切断缅甸电诈园区周边逾 2500 台“星链”设备

IT之家 浏览 3637

这些老电影里的穿搭技巧,绝了!

Yuki女人故事 浏览 3126

职场“关系户”还值得羡慕吗?

识局 浏览 3738

美国会高层称对驻德美军撤出计划“深感担忧”

国际在线 浏览 305

一旦安世半导体分裂,最后谁会哭?

禾颜阅车 浏览 3603

P图只用一句话,小米超级小爱AI大模型“随心修图”上线

IT之家 浏览 3338

上年纪的女人穿衣别焦虑,试试这几个搭配套路,优雅还减龄

静儿时尚达人 浏览 3494

盘点布里斯班赛历届单打冠军:巨星云集,休伊特横跨十六年!

网球之家 浏览 2716

中国游客到迪拜参加婚礼被困:目睹导弹从上空飞过

极目新闻 浏览 1951

博主:王子铭今天自行加练,周金辉、李明等高层现身训练基地

懂球帝 浏览 3504

委总统要求保留军权 遭特朗普拒绝

新华社 浏览 3135

黄仁勋,亲赴台积电“要产能”

华尔街见闻官方 浏览 3523

中企在非洲因环境问题引争议 遭800亿美元天价索赔

澎湃新闻 浏览 40960

谷歌间接承认 Tensor G5 芯片 GPU 问题

IT之家 浏览 3594

男子自带3瓶茅台被服务员调包 摸酒瓶辨温度识破伎俩

封面新闻 浏览 8166
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1