爆点资讯

·“数据质量的差别是主要瓶颈之一。相较于英文数据，中文数据的开源程度较低，导致中文数据集的规模相对较小。此外，英文作为科研主流语言，在学术界和工业界中得到广泛应用，积累了大量高质量的语料数据，这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间，复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS，引发各界人士参与内测的热情。一个显著的反馈是，MOSS的英文回答水平比中文高，这在公众与ChatGPT的互动中也有类似体现。为何如此？
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技（www.thepaper.cn）表示，“数据质量的差别是主要瓶颈之一。相较于英文数据，中文数据的开源程度较低，导致中文数据集的规模相对较小。此外，英文作为科研主流语言，在学术界和工业界中得到广泛应用，积累了大量高质量的语料数据，这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚，“MOSS的英文回答水平比中文高，因为它的模型基座学习了3000多亿个英文单词，中文词语只学了约300亿个。”
王昊认为，对于中文来说，高质量无监督语料和指令数据尤其严重不足。因此，中文自然语言处理领域需要更多的投入和努力来积累高质量的数据，并将其开源，以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》，他在接受澎湃科技（www.thepaper.cn）采访时表示，“从数据和应用的角度来说，中国的科技企业目前来看有比较大的优势。从数据角度来说，国内其实是产出了大量数据的，但数据的准确性和可靠性如果能够提上去，对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的，在新闻、广告、教育等等领域，而应用

为什么复旦MOSS大模型的中文水平不如英文？

重要通知！油...

2024微博...

城市NOA，...

2-4遭海牛...

肖战杨紫绯闻...

台军想用美售...

实探安世半导体东莞工厂：限制出货员工将＂上四休三＂

冬天也想穿裙子！附不同温度的穿搭公式

钟楚曦侯雯元官宣恋情后首合体，现身泰国游被偶遇，女方穿着花俏

板块轮动到谁了？沪指逼近4000点，机构正大幅买入这些主题ETF

热度破5000！李行亮麦琳刚走，又来2大活宝，芒果台又出王炸综艺

辽篮官宣夏训！以年轻球员+恢复为主，2流言球员留队，李虎翼跟队

戈登：看过很多萨拉赫的比赛，在我眼中他可能是世界最佳

身材走样的中年女人，请认准这三条搭配技巧，照着学优雅又时尚

74岁刘松仁瘦脱相，口齿不清疑中风，坚持丁克晚年凄凉！

法国小众跑车的短暂荣光：Hommell Berlinette

罗德里戈：安切洛蒂几乎赢得了一切，我们沉醉于他的执教

以色列防长与埃及防长就边境交火事件通电话

公司倒查半年考勤辞退迟到32次员工员工起诉法院判了

宝马M5 Touring预告图发布 2025年上市

历史上天才中的天才，你最佩服哪一位？

一个月来至少三起，台积电频频投资硅谷AI芯片创企

阿拉维斯vs西班牙人：德尼斯-苏亚雷斯、阿莱尼亚首发，鲁文-桑切斯、基克-加西亚出战

你看不起的零跑，终于打响第一枪！

比亚迪新车预告，2024年方程豹皮卡，腾势版“帕美”都要来了

上海市监局回应＂凉皮里加黄瓜丝＂被罚:重点不是黄瓜丝

杨怡携家人去海边，穿泳衣秀身材，与老公秀恩爱

赵继伟伤后动态！工作室确定拉伤，待医生进一步检查！

拜登通告全球＂特朗普让国家蒙羞＂罕见措辞引全球关注

清纯外表下是强大的＂野心＂，深扒董洁的＂起伏＂人生