爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

威斯康星大学...

杨凡导演靓丽...

增速惊人：我...

小米现车选购...

美国战争部长...

大马丁入驻国...

一个月来至少三起，台积电频频投资硅谷AI芯片创企

电池技术取得重要突破，新能源车续航里程有望翻倍

秋到没边的氛围感美甲，一眼心动

俄主动向美通报:核动力巡航导弹上天射程＂几乎无限＂

日元，跌回1986年！

比尔·盖茨抵达北京为2019年来首次

春晚开播第二天，全网都在搜他的神图

已被申请破产！某新势力再被执行1415万元

舞蹈与千年古镇碰撞第二季新市古镇舞蹈艺术季启幕

美媒扒哈登末节细节：快船追到只差15分登哥穿训练服两眼空洞

联合国官员：加沙教育系统状况是灾难性的

美方在北约外长会上＂炮轰＂欧盟被指系又一次强硬姿态

小米汽车事故后甩锅，真诚真的难吗？

记者坐专列到淄博吃烧烤：单店日均售1万串 4点就排队

又见天价离婚，冻结上市公司股权34亿！

换装丰田混动系统！马力提升至219匹！美版2026款CX-50售21万

福建舰已完成多次海试进度远超预期

圣诞大战赛程：黄绿大战重演，掘金迎战勇士

以军先斩后奏空袭加沙多地特朗普：以色列没做错

大量iPhone 17系列新机无法激活苹果客服回应

“受够了女装就是男装XXS版”，不想再交粉红税的她们被「时尚户外风」哄好了

OpenAI首席执行官Sam Altman：不希望使用《纽约时报》的数据进行训练

欧拉“闺蜜局”火爆成都车展！引众多女性踊跃打卡！

乌防长：都怪默克尔否则乌克兰可能2008年就加入北约