爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

会化妆的女生...

业务调整、A...

美媒：预计在...

乐聚机器人已...

重庆大学团队...

被北京女高管...

黄一鸣宣布新恋情，王思聪或成过去式

全新雷克萨斯GX550即将上市，约合人民币45万，配3.5T四驱+差速锁

美＂泄密门＂嫌犯被捕细节：FBI逼近时他在安静读书

科利德：已完工项目转固金额现疑云募投项目投资额翻倍建设产能或调增不足三成

中方回应美100%关税威胁：动辄以高额关税进行威胁，不是与中方相处的正确之道

浙京赛后！王博提调整但拒反思，孙铭徽医院拍片，老马不满执行力

朱媛媛离世5月后，辛柏青再传坏消息

也门胡塞武装证实也门萨那等地遭美英空袭

美女校医热衷裸聊将男网友约到家首次见面就发生关系

50多名女性被＂完美老公＂骗数千万女子：还发生了关系

美媒：狄龙今日将与湖人、雄鹿、独行侠和火箭进行会面

冯柳新进4家公司！段永平偷着乐...

无缘提前2轮保级！武汉三镇54天不胜，6年首负新鹏城，4纪录告破

媒体：俄乌无人艇攻防战属于＂菜鸡互啄＂

新美联储通讯社：美联储暗示暂停降息行动，新债王：今天或是鲍威尔任内最后一次

2023年最火的发型你一定要试试！

全网围观，这年度夫妻撕叉大戏来了

梅根哈里闹离婚：梅根婚戒消失，正在咨询律师

汶川地震猪坚强中午吃了十斤特制饭，兽医说它已到弥留之际

白玉兰视后竞争激烈：殷桃海清争锋，赵丽颖会赢？

佘智江获利达1.5亿元：曾逼美貌女性卖淫或供＂玩乐＂

首个有期徒刑正式宣判，恒大、中植“关键人”一个都跑不了！

C罗当选世纪最佳球员，皇马被评为世纪最佳俱乐部

小米SU7车机跑分出炉！不敌奔驰、小鹏，说好的跑分之王呢？