关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷101764人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

网站曝光阿根廷2024年主场球衣:传统蓝白条纹+金色三星队徽

直播吧 浏览 16058

外交部:如加方不听劝告 中方必将坚决有力回击

环球网 浏览 116786

卢卡申科:瓦格纳事件后白俄罗斯军队全面战备

界面新闻 浏览 88447

月球样品管理办法首次对外发布,月球土壤样品将有4种基础用途

趣看热点 浏览 25628

AI算力需求疯狂,微软“新云”交易额超600亿美元

华尔街见闻官方 浏览 689

宝能姚振华入主众泰汽车? 内部人士称是战略合作关系

道哥说车 浏览 10926

台军欲拿泡面吸引解放军投诚,网友差点没有笑出声

趣看热点 浏览 25743

42岁李晨演17岁中学生,场面非常搞笑

趣看热点 浏览 27415

本是项羽爱将,后投靠刘邦,因分得项羽尸体而封侯,最终神秘死亡

趣看热点 浏览 26111

上海女子被小10岁中介男友骗走6套房 自己还成"小三"

看看新闻Knews 浏览 78117

骗取生育保险基金,主犯获刑十年!国家医保局曝光典型案例

环球网资讯 浏览 988

美国的联邦制,很落后!

浏览 23192

信邦制药涉嫌单位行贿被移送起诉,前董事长涉嫌行贿法院已立案受理,公司回应

红星资本局 浏览 56

中央巡视后卸任七年的姜德果被查 曾任唐山市委书记

中国新闻周刊 浏览 20209

吴昕你这么时髦是怎么个事?

时尚COSMO 浏览 13524

新能源车血战到底:理想稳了,蔚来悬了

钛媒体APP 浏览 18239

俄称击落数十架飞往莫斯科无人机

北青网-北京青年报 浏览 802

没想到,50岁妈妈穿衣没有一点油腻感!原来全靠这些搭配技巧

静儿时尚达人 浏览 12963

法国首试高超音速滑翔载具 想挤进高超武器俱乐部

环球网资讯 浏览 15336

六大行集体下调存款利率 100万存5年利息少7500元

时代财经 浏览 16717

左脚低射破门,加纳乔成为切尔西队史第6位进球的阿根廷球员

懂球帝 浏览 810
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1