爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

杜兰特错失关...

芦哲：降准降...

盖茨再次力挺...

媒体：传来两...

印媒：收到不...

鲁媒预测国足...

全新Q05/A06/Q07带动长安启源11月销量46909辆增长31%

以媒：以色列示威者聚集在内塔尼亚胡住宅外抗议

日媒曝自卫队已开始使用“星链”服务

法国小众跑车的短暂荣光：Hommell Berlinette

无限发电不是梦？微生物燃料电池大突破：只要土壤中有碳就行！

车祸后的伍兹已清醒恢复意识，但身体情况并不容乐观

东南欧小国选举俄罗斯、乌克兰和欧盟＂异常罕见＂关注

获皮奥利称赞！小法回应：很感谢他，去年曾联系他并聊了两个小时

相声名家阎月明去世享年78岁苗阜等相声演员悼念

保时捷的十字路口:奥博穆交棒,勒茨斯的回归与挑战

李荣浩井柏然结伴逛街被偶遇李荣浩真实身高曝光

罗马诺：阿森纳正全力敲定赖斯，之后会加紧签廷伯

哈哈哈哈哈哈哈哈哈哈哈哈！！！

今年秋天最美搭配：西装+半裙，减龄又气质！

0-2落后，8-7晋级！迈阿密创造奇迹，梅西导演超级翻盘：助攻双响

万项：距离理想中的球员还差很多；最后两场比赛不会放松

炸了！古二再曝录音，王家卫称游本昌不是省油灯，还说唐嫣很装

中方宣布制裁对台军售美企，制裁力度历史罕见

今夏这条裙子正流行很多人都抢着穿！

日本核污水排海，日料店“地震”？

又是"配股"惹祸?中信证券领跌!一纸公告蒸发170亿

殡葬管理所260元买进骨灰盒1790卖出当地：罚10万

赛更达冲乙朱骏开出400万奖金

格威：没有哪两队比他们更值得很幸运能成为这两队的一员