关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12490人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

法国小众跑车的短暂荣光:Hommell Berlinette

老爷车 浏览 534

无限发电不是梦?微生物燃料电池大突破:只要土壤中有碳就行!

财联社 浏览 12555

车祸后的伍兹已清醒恢复意识,但身体情况并不容乐观

趣看热点 浏览 139429

东南欧小国选举 俄罗斯、乌克兰和欧盟"异常罕见"关注

上观新闻 浏览 33174

获皮奥利称赞!小法回应:很感谢他,去年曾联系他并聊了两个小时

直播吧 浏览 1629

相声名家阎月明去世享年78岁 苗阜等相声演员悼念

网易娱乐 浏览 15145

保时捷的十字路口:奥博穆交棒,勒茨斯的回归与挑战

网易汽车 浏览 919

李荣浩井柏然结伴逛街被偶遇 李荣浩真实身高曝光

扒虾侃娱 浏览 12947

罗马诺:阿森纳正全力敲定赖斯,之后会加紧签廷伯

直播吧 浏览 15554

哈哈哈哈哈哈哈哈哈哈哈哈!!!

时尚COSMO 浏览 13378

今年秋天最美搭配:西装+半裙,减龄又气质!

LinkFashion 浏览 996

0-2落后,8-7晋级!迈阿密创造奇迹,梅西导演超级翻盘:助攻双响

侃球熊弟 浏览 14455

万项:距离理想中的球员还差很多;最后两场比赛不会放松

懂球帝 浏览 338

炸了!古二再曝录音,王家卫称游本昌不是省油灯,还说唐嫣很装

娱乐圈笔娱君 浏览 731

中方宣布制裁对台军售美企,制裁力度历史罕见

趣看热点 浏览 25862

今夏这条裙子正流行 很多人都抢着穿!

In风尚 浏览 16730

日本核污水排海,日料店“地震”?

观察者网 浏览 14481

又是"配股"惹祸?中信证券领跌!一纸公告蒸发170亿

券商中国 浏览 26708

殡葬管理所260元买进骨灰盒1790卖出 当地:罚10万

每日经济新闻 浏览 77120

赛更达冲乙 朱骏开出400万奖金

体坛周报 浏览 1018

格威:没有哪两队比他们更值得 很幸运能成为这两队的一员

直播吧 浏览 10681
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1