爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

35岁男子回...

RMC：姆巴...

村支书逆袭：...

推广|| 用...

未来四个月，...

美媒刊文：不...

卢拉：不希望美国对委发动“地面入侵”

长城汽车发布归元平台，穆峰称坚决不做增程式

中纪委＂三连发＂三＂虎＂同日被开除党籍

T恤+阔腿裤、衬衫+阔腿裤，今年夏天最火的搭配，谁穿谁时髦！

特朗普大规模换大使：涉及30多国均在拜登时期上任

美国战争部长：特朗普吼了他因其未完成某项任务

岚图冲刺港股0融资：车型“偏科”，年销目标前9月完成48.5%

美国1-1厄瓜多尔，恩纳-瓦伦西亚破门，巴洛贡扳平

特斯拉新款Semi电动卡车量产下线搭载三电机

广东三外配置太完美！奎因萨姆纳双能卫猛攻，萨林杰关键球收割！

“半固态”出局！中国制定全球首个固态电池国标

美联储主席鲍威尔回应遭刑事调查：将继续履行职责

以色列强调人质释放加沙停火第一阶段协议达成

徐帆带徐朵参加活动，徐朵发文回应质疑

娜然跟霍启山回香港！逛街消费幸福肥明显

持续烧钱的大模型，阻挡不了AI行业的热情

5分钟充满电！全球首款可量产全固态电池来了

燃油/插混/纯电都有五菱星光730将于10月15日预售

Meta团队揭秘大模型＂视觉天赋＂之谜：文本训练竟能培养看图能力

大动作调仓！机构开年疯狂扫货这些板块，而火爆的芯片、半导体ETF竟被抛售

金建希案法官身亡:其此前给金建希加刑对方脸色难看

“卷”起来！人形机器人，只要9998元！

选来选去还是这些穿搭最适合秋天，不老气、不死板，舒适大方

首发权益价5.98万起星光560动力及安全信息发布