关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19095人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

应对日本130万吨核污水排海 国内城市有道"防线"

每日经济新闻 浏览 86567

【进博时刻】每天训它几百遍,这份枯燥的工作并非冷冰冰

上观新闻 浏览 739

中方表态菲律宾加拿大签军事协议

北京日报 浏览 736

将提升极端场景识别度 小米汽车召回超11万台SU7标准版

网易汽车 浏览 1703

终于等到芭比粉逆袭上位了!

《红秀GRAZIA》 浏览 16827

向往的生活第五季什么时候播出?向往的生活第五季已经定档张艺兴加入其中

趣看热点 浏览 26347

好莱坞恶魔制片人被判146年 受害女警作证后意外身亡

大风新闻 浏览 7432

俄一夜间击落249架乌克兰无人机

北青网-北京青年报 浏览 350

河南鹅首曲颈青铜壶,内装可以止血消炎的药酒

趣看热点 浏览 26177

今年最好看的4件毛衣!

LinkFashion 浏览 670

“豪车界不死鸟”联手“特斯拉杀手”,强强联合还是抱团取暖?

时代周报 浏览 15644

17.64亿!理想MEGA召回预估成本创纪录,主动担责撬动行业规范变革|封面独家

封面新闻 浏览 781

曾威胁要"解散北约"的特朗普为重返白宫再次点名北约

新京报评论 浏览 105878

金价明年破5000美元?分析:前提是“美元贬值交易”重新流行

华尔街见闻官方 浏览 724

应采儿晒儿子比赛视频 10岁Jasper长高大长腿显眼

笑猫说说 浏览 16443

女子浑身酸痛疑被男同事强奸 警方查出男方才是受害者

社会奇闻君 浏览 89760

东南亚出海速递 腾势泰国交付突破3000辆

车质网 浏览 674

马绩效:尤文对皇马机会多但把握差,很难说这就是积极的表现

懂球帝 浏览 881

女人到了60岁穿衣得体显得年轻!这些穿搭不容错过,自然又简单

静儿时尚达人 浏览 11055

真正会搭配的女人,夏季都懂得“穿简不穿繁”,时尚洋气不过时

Yuki时尚酱 浏览 11294

特朗普与高市早苗首次会晤 外交部回应

政知新媒体 浏览 12875
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1