关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12499人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

俄主动向美通报:核动力巡航导弹上天 射程"几乎无限"

上观新闻 浏览 6254

日元,跌回1986年!

国是直通车 浏览 10765

比尔·盖茨抵达北京 为2019年来首次

界面新闻 浏览 16274

春晚开播第二天,全网都在搜他的神图

她刊 浏览 13151

已被申请破产!某新势力再被执行1415万元

汽车工程师 浏览 12954

舞蹈与千年古镇碰撞 第二季新市古镇舞蹈艺术季启幕

国是直通车 浏览 865

美媒扒哈登末节细节:快船追到只差15分 登哥穿训练服两眼空洞

Emily说个球 浏览 257

联合国官员:加沙教育系统状况是灾难性的

北青网-北京青年报 浏览 852

美方在北约外长会上"炮轰"欧盟 被指系又一次强硬姿态

澎湃新闻 浏览 31635

小米汽车事故后甩锅,真诚真的难吗?

宏哥谈商道 浏览 961

记者坐专列到淄博吃烧烤:单店日均售1万串 4点就排队

第一财经资讯 浏览 111189

又见天价离婚,冻结上市公司股权34亿!

诗与星空 浏览 964

换装丰田混动系统!马力提升至219匹!美版2026款CX-50售21万

念寒车评 浏览 1503

福建舰已完成多次海试 进度远超预期

央视新闻客户端 浏览 1278

圣诞大战赛程:黄绿大战重演,掘金迎战勇士

OnFire 浏览 14341

以军先斩后奏空袭加沙多地 特朗普:以色列没做错

上观新闻 浏览 755

大量iPhone 17系列新机无法激活 苹果客服回应

界面新闻 浏览 5785

“受够了女装就是男装XXS版”,不想再交粉红税的她们被「时尚户外风」哄好了

Vista氢商业 浏览 1035

OpenAI首席执行官Sam Altman:不希望使用《纽约时报》的数据进行训练

财联社 浏览 12921

欧拉“闺蜜局”火爆成都车展!引众多女性踊跃打卡!

汽车说刊 浏览 20576

乌防长:都怪默克尔 否则乌克兰可能2008年就加入北约

环球时报新闻 浏览 114007
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1