关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者655人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美媒:美军增派战机至位于波多黎各的前罗斯福路海军基地

环球网资讯 浏览 35

推广|| 用了好几年才推荐,这件单品真的值得投资

黎贝卡的异想世界 浏览 903

4年3冠!王牌大比分4-0横扫水星夺冠,阿贾-威尔逊31+9+4

懂球帝 浏览 1004

财经早餐:日经指数升破35000点创近34年新高;中国汽车业迈入年产销3000万辆时代

网易财经 浏览 13037

AI代写论文公司曾申请精英人才商标

大象新闻 浏览 962

王博:上半场让高登得了14分 下半场调整了挡拆和防守来限制他

直播吧 浏览 19148

空调“自动化”成卖点,大众智能化这么拉胯了?真的有点心疼ID.7

小李车评李建红 浏览 12295

格里马尔多:穆帅说我是超级球员?被最伟大教练之一夸很荣幸

懂球帝 浏览 676

鸿蒙版微信一周年:从“能用”到“好用” 超2000万下载量背后的进化史

快科技 浏览 979

马斯克:我更喜欢磷酸铁锂电池 可充电到100%

盖世汽车 浏览 20261

金价明年破5000美元?分析:前提是“美元贬值交易”重新流行

华尔街见闻官方 浏览 686

到了秋天才知道,年纪大的女人要告别“小脚裤”,这样穿显瘦

静儿时尚达人 浏览 947

烤肉姐:比尔心仪下家有热火因佛州无收入税 热火之前也追过他

直播吧 浏览 16421

弗利克:这是一场艰苦的胜利 我们要捍卫榜首位置

体坛周报 浏览 1424

中国移动正式发布两颗自研芯片

爱集微 浏览 16034

AIGC领域最大收购:Databricks 13亿美元买下MosaicML

硅星人 浏览 15589

用AI演戏,Vidu 的三重进化,AI视频从碎片化叙事迈向复杂叙事新阶段

雷峰网 浏览 839

马杜罗:美国对委内瑞拉威胁是"老调重弹"

国际在线 浏览 381

牛弹琴:美军在中东遇袭却没动静 拜登面临艰难选择

上观新闻 浏览 79303

窦骁何超莲国外被偶遇!女方冲浪心情大好,窦骁喝咖啡满脸愁容

萌神木木 浏览 638

解放军家底子不够厚?3艘航母造完,还得干

浏览 10578
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1