关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19085人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

业主车位被占后焊栏杆围车 涉事双方:局面失控 先缓缓

潇湘晨报 浏览 120377

特朗普称俄为"纸老虎" 普京回应

央视新闻客户端 浏览 922

西班牙青训球队开除4名U16球员,他们曾为泄愤持刀威胁对手

懂球帝 浏览 382

中国啤酒的脊梁,海外120个国家有售,一年卖出2亿瓶

灰鸽观察室 浏览 10803

29.2万辆!难怪比亚迪9月跟“疯了”一样,原来是给这几天憋大招

小李车评李建红 浏览 1067

东京奥运会如空场日本将损失1450亿,成史上最亏奥运会

趣看热点 浏览 568006

有些风格的衣服 只有"肉感"女生穿才惊艳

潮范儿 浏览 16735

金鸡奖成“照妖镜?

柠檬有娱乐 浏览 542

青岛青春岛足球俱乐部更名为青岛西海岸足球俱乐部

直播吧 浏览 18734

聚焦进博|中资银行“金”点子护航进博会

国际金融报 浏览 689

更运动 阿尔法·罗密欧Junior运动特别版发布

车质网 浏览 707

希腊政府宣布参与欧盟红海护航行动

北青网-北京青年报 浏览 12353

外媒:俄罗斯多家电台遭黑客攻击 伪造普京讲话

参考消息 浏览 16996

英国安德鲁王子放弃王室头衔 被指与未成年人发生关系

CCTV国际时讯 浏览 6925

夫妻徒步回家过年:58天2千公里跨3省1市 睡过桥洞牛棚

上游新闻 浏览 79679

王暖暖花6年才离掉婚 男方母亲曾带女子探监和他相亲

新京报 浏览 1075

罗马诺:沃特福德等3家英冠队求租边锋汉密尔顿,曼城无意放走他

直播吧 浏览 12505

统治力!罗诗芳卫冕全运会女子举重59公斤级金牌!

体坛周报 浏览 625

广东U20 1-0上海U20,张志雄绝杀

懂球帝 浏览 645

想要在春季穿得简约又时髦,看看这几套穿搭方案,学起来容易

静儿时尚达人 浏览 12683

李佳航、印小天拍短剧?还是穿越题材

最爱酷影视 浏览 1015
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1