关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19059人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

绿色+棕色,今年秋天最美配色!

LinkFashion 浏览 2021

被记者询问涉移民言论 德国总理回呛"问你们女儿去吧"

环球时报国际 浏览 8358

布鲁斯-布朗:斯科蒂-巴恩斯是一位愿意在场上拼命的球员

直播吧 浏览 12539

以军先斩后奏空袭加沙多地 特朗普:以色列没做错

上观新闻 浏览 745

特朗普:内塔尼亚胡执政前景“存在不确定性”

环球网资讯 浏览 1027

从“白幼瘦”到“气血感”,审美标准终于“健康”了?

Yuki女人故事 浏览 226

2025蔚来日在杭州成功举办

财经无忌 浏览 1661

又一TVB新闻主播宣布离巢,现时嫁音乐家林风

TVB剧评社 浏览 15778

比亚迪腾势N7纯电猎跑SUV上市,30.18万元起

IT之家 浏览 15055

创女子体育新高,WTA与梅赛德斯-奔驰达成每年4700万美元合同

懂球帝 浏览 58

马国明透露将与汤洛雯在年底前结婚 自曝想生两个

网易娱乐 浏览 19725

辛巴称遭打假人敲诈,才刚复出就整这么多幺蛾子?

趣看热点 浏览 26155

房贷利率率先跳水 美国楼市或迎来新一轮上行周期

火星宏观 浏览 12984

最高续航达610km 江铃羿驰05S上市售9.79万元

网易汽车 浏览 878

什么信号?有银行直接5.5折卖房

大猫财经Pro 浏览 586

女人过50岁想变优雅,春季穿搭至关重要,瞧瞧这些妈妈的打扮

静儿时尚达人 浏览 12714

1欧元买18架战机 罗马尼亚与荷兰以"象征性价格"签署购机合同

环球网资讯 浏览 691

冲破十万大关的乐道,能否成为蔚来的“翻身之牌”?

禾颜阅车 浏览 861

委内瑞拉武装部队宣布增招士兵5600名

界面新闻 浏览 61

媒体人:国安从来没说过要解散,也从未想过要自我了断

懂球帝 浏览 749

开年关键词「柔和桃」,唐嫣已经上身了!

创作者_WCD3 浏览 13200
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1