关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者2647人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

蔡卓妍林俊贤结婚,3枚婚戒超65万,男主搬入女方豪宅同居生活

素素娱乐 浏览 547

AI首个「铁饭碗」:在浦东美术馆,我用豆包跟毕加索聊了一上午

雷科技 浏览 2628

萨莫拉诺:巴萨必须引导好亚马尔,从没听过梅西说皇马偷窃

懂球帝 浏览 3368

李在明告诉CNN:不能将中国拒之门外

环球网资讯 浏览 6719

杰哈德指责加沙“和平委员会”组成服务于以方利益

极目新闻 浏览 2629

电影《寻秦记》番位惹争议,白百何排第三成女主,原版女主变女二

萌神木木 浏览 3230

桑托斯3-1科林蒂安,罗埃塞点射破门,巴雷亚尔传射

懂球帝 浏览 3896

勇士124-106轻取鹈鹕,库里11中2仅9分,穆迪8记三分

懂球帝 浏览 3442

死亡人数增至44人!香港大埔火灾背后的宏福苑已42年楼龄

红星新闻 浏览 3289

斗跑杨立昆后自己也要被废?汪滔赶忙“端菜上桌”

字母榜 浏览 1734

告别巨舰,轻舟竞发:EXO成员的单飞远征时代

仙女事件簿 浏览 3019

拥有超灵巧机械手,人形机器人North可打乒乓球、组装纸风车

IT之家 浏览 2668

摩根大通一线调研:微软领先所有人至少10光年,生态整合能力非常强大!

华尔街见闻官方 浏览 2687

从移动设备到机器人,高通如何解锁端侧AI的「全域智能」?

雷峰网 浏览 2613

26款奇瑞冰淇淋/小蚂蚁上市 报废双补价3.4万元起

网易汽车 浏览 2666

国庆长假,基层的你休了几天?

识局 浏览 3718

12万人挤爆,成都跨年集体狂欢

深蓝财经 浏览 2761

外国女教师性侵16岁男学生数月上百次 详情炸裂

胡侃社会百态 浏览 39065

整形医生称泰勒·斯威夫特怀孕了

阿废冷眼观察所 浏览 3718

19岁中国女孩被困缅甸 交20万赎金园区仍未放人

界面新闻 浏览 33133

为什么说医疗AI的终局,必然有讯飞医疗一席之地?

锦缎研究院 浏览 2058
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1