关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19094人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

15.69 万元起!全新深蓝 S07 上市交付

汽车商评 浏览 1706

女子被日料店服务员泼开水烫伤:事发后曾接到警告电话

封面新闻 浏览 6152

今日热点:杨紫对接辟谣出演《风月不相关》;易烊千玺出现在新闻联播镜头......

伊周潮流 浏览 12589

排队两小时买奶皮子糖葫芦,值吗?

时尚COSMO 浏览 663

美舰穿航台湾海峡,东部战区正告美方停止在台海滋事搅局

趣看热点 浏览 25907

土耳其对内塔尼亚胡等人发出逮捕令 以色列回应

环球网资讯 浏览 658

舞蹈与千年古镇碰撞 第二季新市古镇舞蹈艺术季启幕

国是直通车 浏览 881

智元推出多场景“六边形战士”精灵G2,首发前已获数亿元订单

文汇报 浏览 991

周销量出炉后,理想、特斯拉接连降价,新一轮价格战已经爆发?

车市红点 浏览 12623

沃格尔:我们的表现不配赢球 我在末节该让布克投更多的球

直播吧 浏览 12667

奥巴马带着妻女与好莱坞演员汤姆·汉克斯聚餐

译言 浏览 15639

realme 真我 12 Pro 系列手机 2 月 27 日国内发布

IT之家 浏览 12427

美媒探访内蒙古:中国AI的一张“王牌”,藏在这里

观察者网 浏览 65

戏全被配角抢走!《大生意人》朱亚文向涵之出场,陈晓前10集白干

温柔娱公子 浏览 212

哈马斯高层在多哈遇袭后首次现身

政知新媒体 浏览 1636

“女足活力玫瑰课堂”走进乡村校园,刘青、李琳等球员参与

懂球帝 浏览 13651

巨星传奇想摆脱“周杰伦依赖”

北京商报 浏览 685

秋瓷炫《浪姐》舞台鲨疯了!

她读 浏览 16763

普通人穿衣别太发愁,学会这些基础穿搭,舒适大方又省时间

静儿时尚达人 浏览 988

中兴 ZXHN E3710 Wi-Fi 7 双频无线路由器现身电信终端产品库

IT之家 浏览 12458

Shams:詹姆斯可能不止缺阵3周 或季后赛之前复出或复出打附加赛

直播吧 浏览 19592
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1