关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19049人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

板块轮动到谁了?沪指逼近4000点,机构正大幅买入这些主题ETF

每经牛眼 浏览 801

热度破5000!李行亮麦琳刚走,又来2大活宝,芒果台又出王炸综艺

娱乐圈笔娱君 浏览 961

辽篮官宣夏训!以年轻球员+恢复为主,2流言球员留队,李虎翼跟队

篮球资讯达人 浏览 16644

戈登:看过很多萨拉赫的比赛,在我眼中他可能是世界最佳

直播吧 浏览 12386

身材走样的中年女人,请认准这三条搭配技巧,照着学优雅又时尚

Yuki时尚酱 浏览 13047

74岁刘松仁瘦脱相,口齿不清疑中风,坚持丁克晚年凄凉!

缘木不求娱 浏览 12286

法国小众跑车的短暂荣光:Hommell Berlinette

老爷车 浏览 530

罗德里戈:安切洛蒂几乎赢得了一切,我们沉醉于他的执教

直播吧 浏览 16277

以色列防长与埃及防长就边境交火事件通电话

环球网资讯 浏览 16850

公司倒查半年考勤辞退迟到32次员工 员工起诉法院判了

上观新闻 浏览 30913

宝马M5 Touring预告图发布 2025年上市

网易汽车 浏览 12213

历史上天才中的天才,你最佩服哪一位?

趣看热点 浏览 25956

一个月来至少三起,台积电频频投资硅谷AI芯片创企

界面新闻 浏览 16008

阿拉维斯vs西班牙人:德尼斯-苏亚雷斯、阿莱尼亚首发,鲁文-桑切斯、基克-加西亚出战

懂球帝 浏览 710

你看不起的零跑,终于打响第一枪!

象视汽车 浏览 776

比亚迪新车预告,2024年方程豹皮卡,腾势版“帕美”都要来了

蜗牛车志V 浏览 12785

上海市监局回应"凉皮里加黄瓜丝"被罚:重点不是黄瓜丝

上游新闻 浏览 90243

杨怡携家人去海边,穿泳衣秀身材,与老公秀恩爱

显微镜生活 浏览 15910

赵继伟伤后动态!工作室确定拉伤,待医生进一步检查!

篮球资讯达人 浏览 626

拜登通告全球"特朗普让国家蒙羞" 罕见措辞引全球关注

现代小青青慕慕 浏览 5663

清纯外表下是强大的"野心",深扒董洁的"起伏"人生

不八卦会死星人 浏览 16412
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1