关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19077人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

马嵬坡之变主谋是陈玄礼?唐玄宗痛失杨贵妃竟然他想报复

趣看热点 浏览 26361

乌克兰军方:多个方向发起反攻

环球网资讯 浏览 15652

台媒:邱国正传递两岸濒临战事的信息 示警意味浓厚

直新闻 浏览 82063

乐华娱乐回应开票争议:不可能出票给任何第三方

网易娱乐 浏览 16936

美欲推动加沙停火计划第二阶段 专家:既想占好处又不愿担责

环球网资讯 浏览 909

联想拯救者 Y700 2023 平板开启 ZUI 16 灰度推送,升级安卓 14

IT之家 浏览 10998

以色列议会初步通过吞并约旦河西岸法案 遭15国谴责

环球时报国际 浏览 6414

豆包手机最高被炒至1.29万元 日租费高达1600元

极目新闻 浏览 30440

比亚迪新车预告,2024年方程豹皮卡,腾势版“帕美”都要来了

蜗牛车志V 浏览 12809

云南新增23例无症状感染者,近半数为缅甸籍

趣看热点 浏览 1205497

字节CEO梁汝波内部讲话:多次提及危机感,2024年要始终创业

鞭牛士 浏览 12481

春节在商场加班的卖车人:有人5天卖出20多台,有人卖一台净赚超2000元|钛度车库

钛媒体APP 浏览 12353

争议!周琦输急眼:肘击詹姆斯头部+夹胳膊 后者狂轰63+21创纪录

厝边人侃体育 浏览 12814

Slack CEO 加盟 OpenAI,担任公司首席营收官

经济观察网 浏览 92

都心不在焉我来C!鲍威尔上半场4中3&罚球5中4得到11分 全队最高

直播吧 浏览 13346

87岁老戏骨,2个儿子不同姓,晚年独居养老院

我是娱有理 浏览 15953

让人年轻5岁的颜色,这个春天别错过!

ELLE世界时装之苑杂志 浏览 19820

看完这张照片,终于读懂了巩俐的美

潮人方法论 浏览 16709

有多少新中产,偷偷把"西太后"当转运法宝?

INSIGHT视界 浏览 18283

造访22个国家,OpenAI CEO回来后要改进AI工具

网易科技报道 浏览 15724

蒙蒂:目前没有关于康宁汉姆伤势的具体消息 他对我们很重要

直播吧 浏览 12629
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1