关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者662人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

泰康资产段国圣:AI切入投研赛道,资管行业价值链有望重塑

券商中国 浏览 665

美财长耶伦和总统气候问题特使克里本周访华 中方回应

财联社 浏览 95713

陕西新郎结婚当天跳河身亡 母亲首度发声透露原因

封面新闻 浏览 6663

王大陆官宣新恋情,承认与女主播交往

扒虾侃娱 浏览 12793

星光熠熠...詹库杜东欧齐聚西部附加赛区

厝边人侃体育 浏览 11875

因为它,马斯克和兵马俑跳起了《科目三》

爱范儿 浏览 12419

还很懵X❗遭大逆转,辛辛那提主帅:被迈阿密淘汰,很痛

直播吧 浏览 14183

冯巩当选中国曲艺家协会主席!姜昆连任10年卸任

盖饭娱乐官方号 浏览 18808

理想汽车:2月新开门店8家,理想L7即将开启交付

界面新闻 浏览 18906

经典落幕:苹果正式将初代iPhone SE列为过时产品

环球网资讯 浏览 239

荷媒:德容在国家德比中受伤,他将退出本期荷兰队&伤缺两周

直播吧 浏览 19321

2023年全球最可靠汽车排名,冠亚军让人意外,路虎、特斯拉垫底

买车家 浏览 12689

半年内中行多名高管被查 1人被指是"逃逸式辞职"典型

政知新媒体 浏览 91910

共享汽车座椅藏针是什么情况?广州天河警方已正式介入调查

趣看热点 浏览 134785

女人50岁衣服不要买多 建议准备好这四件单品

虎哥说衣不二 浏览 15115

“反攻”进度不如预期?乌克兰:武器严重短缺

参考消息 浏览 14700

有一个学霸人设崩塌?九漏鱼怎么都游向了娱乐圈

八卦三缺一 浏览 12786

自2020年帽子戏法次数榜:哈兰德12次居首,莱万10次&姆巴佩9次

直播吧 浏览 19153

春天要认真打扮!不要小瞧这些“基础款”,穿上照样美得惊艳

静儿时尚达人 浏览 11384

最高法披露案例:交管未合理设置标志致5814辆车次违法

上游新闻 浏览 70073

"点读机女孩"高君雨紧急转进ICU 家长:持续发烧不退

红星新闻 浏览 69591
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1