关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12482人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

科利德:已完工项目转固金额现疑云 募投项目投资额翻倍建设产能或调增不足三成

金证研 浏览 13047

中方回应美100%关税威胁:动辄以高额关税进行威胁,不是与中方相处的正确之道

环球网资讯 浏览 989

浙京赛后!王博提调整但拒反思,孙铭徽医院拍片,老马不满执行力

篮球资讯达人 浏览 19144

朱媛媛离世5月后,辛柏青再传坏消息

乡野小珥 浏览 1012

也门胡塞武装证实也门萨那等地遭美英空袭

界面新闻 浏览 12609

美女校医热衷裸聊 将男网友约到家首次见面就发生关系

胖胖侃咖 浏览 78181

50多名女性被"完美老公"骗数千万 女子:还发生了关系

新京报 浏览 5892

美媒:狄龙今日将与湖人、雄鹿、独行侠和火箭进行会面

直播吧 浏览 15392

冯柳新进4家公司!段永平偷着乐...

格隆汇 浏览 18188

无缘提前2轮保级!武汉三镇54天不胜,6年首负新鹏城,4纪录告破

奥拜尔 浏览 872

媒体:俄乌无人艇攻防战属于"菜鸡互啄"

中国新闻周刊 浏览 14817

新美联储通讯社:美联储暗示暂停降息行动,新债王:今天或是鲍威尔任内最后一次

华尔街见闻官方 浏览 59

2023年最火的发型 你一定要试试!

镜子发型 浏览 17140

全网围观,这年度夫妻撕叉大戏来了

独立鱼 浏览 798

梅根哈里闹离婚:梅根婚戒消失,正在咨询律师

译言 浏览 17624

汶川地震猪坚强中午吃了十斤特制饭,兽医说它已到弥留之际

趣看热点 浏览 26444

白玉兰视后竞争激烈:殷桃海清争锋,赵丽颖会赢?

不八卦会死星人 浏览 19098

佘智江获利达1.5亿元:曾逼美貌女性卖淫 或供"玩乐"

新京报 浏览 14664

首个有期徒刑正式宣判,恒大、中植“关键人”一个都跑不了!

深蓝财经 浏览 634

C罗当选世纪最佳球员,皇马被评为世纪最佳俱乐部

趣看热点 浏览 25405

小米SU7车机跑分出炉!不敌奔驰、小鹏,说好的跑分之王呢?

电车通 浏览 10912
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1