关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12483人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

官员大搞"期权腐败":在任办事不收钱 退休后找人兑付

中央纪委国家监委网站 浏览 86088

韩素希生图曝光!鼻子弧度变形被吐槽整成匹诺曹,否认整容太打脸

文艺圈娱乐号 浏览 13185

慕安会召开前特朗普提"北约过时" 欧洲盟友"心情复杂"

新民晚报 浏览 80542

黄晓明新片差评如潮,主演电影连扑三部,票房号召力越来越差了

萌神木木 浏览 809

澳国防部称监测到中国舰队活动 外交部回应

财联社 浏览 226

自阿里以来,特尔是英超对阵曼联进球最年轻的热刺球员

懂球帝 浏览 631

美防长奥斯汀1月1日被送医治疗 目前身体在康复中

环球网 浏览 12748

有气质的40岁女人都喜欢低马尾和微卷发

成铭聊发型 浏览 19676

2023春夏流行总结,短裤可以搭一切

Bordine的时尚时刻 浏览 16179

你穿毛衣+阔腿裤的样子 真的时髦炸了!

全球时尚 浏览 19730

英伟达CEO黄仁勋:编程技术将可能变得不那么有价值

雷递 浏览 11201

父亲被熟人杀害后母亲出走17年 20岁儿子控告母亲遗弃

红星新闻 浏览 63878

44岁TVB男星再当爸,港姐太太二胎诞下小儿子

TVB剧评社 浏览 708

国产药械对外授权交易再现新进展,创下多个“首个”

第一财经资讯 浏览 1003

加多宝和王老吉又打击起来了?持续不断的争斗真的有意义吗?

江瀚视野 浏览 925

德国外长在广州表态:看到与中国建设性合作的机会

环球时报国际 浏览 8007

超充智能为王 华为发布充电技术十大趋势

网易汽车 浏览 12447

发生了什么?A股瓜子巨头净利骤降

中国基金报 浏览 14583

以专家:以色列唯一正确选择 就是100%服从特朗普安排

中国新闻周刊 浏览 8893

荣耀最先提出端侧大模型概念 赵明:未来会和网络侧大模型合作

网易科技报道 浏览 15432

小米 WiFi 7 路由器 BE 3600 2.5G 版开售,首发249元

IT之家 浏览 12111
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1