关闭广告

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者2631人阅读


科技发展到今天,人工智能已经能够模仿人类的声音说话了。然而,如果你曾经尝试过让AI说其他语言,比如让一个英语AI说中文,你可能会发现它的口音怪异,发音不准,甚至完全听不懂在说什么。这就像是一个只会说英语的人硬要说中文,结果说得让人啼笑皆非。这背后的根本问题是什么呢?缺乏高质量的多语言语音数据。

由国际数字经济研究院(IDEA)主导的研究团队最近发表了一项突破性成果,这项研究发表于2025年1月的arXiv预印本服务器上,论文编号为arXiv:2601.04233v1。感兴趣的读者可以通过这个编号查询完整论文。研究团队构建了一个名为LEMAS的庞大语音数据集,包含超过15万小时的多语言语音数据,覆盖10种主要语言,并且每个词都有精确的时间戳标注。基于这个数据集,他们还开发了两个强大的AI模型:LEMAS-TTS和LEMAS-Edit,前者专门负责语音合成,后者专门负责语音编辑。

为了理解这项研究的重要性,我们可以把语音AI比作一位多语言播音员。传统的播音员要想掌握多种语言,需要大量的训练素材和精确的指导。同样,AI要想说好多种语言,也需要海量的高质量语音数据作为"教材"。但现有的多语言语音数据存在许多问题:要么

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

61岁朱军近况曝光!扎根甘肃成治沙“老把式”

代军哥哥谈娱乐 浏览 2796

近11战1胜10负!哈登缺阵快船惨败雷霆 近两战合计净负39分

Emily说个球 浏览 3008

迪马济奥:尤文已与前主帅图多尔解约

懂球帝 浏览 2683

比亚迪宣布涨价!

江南晚报 浏览 514

天冷了,“彩色毛衣”这么穿美翻了!

LinkFashion 浏览 2920

美国司法部查扣12.7万枚比特币 其所有人仍在逃

澎湃新闻 浏览 8632

中方取消多场重要会议 李在明承诺:帮高市"搞定"中国

现代小青青慕慕 浏览 15559

拉萨的年轻人,原来是这样生活的

幕味儿 浏览 3519

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro 浏览 791

贝克汉姆晒14岁哈珀滑雪照,眉眼精致美人胚子

译言 浏览 2093

法媒:阿什拉夫等伤员会前往慕尼黑,为队友加油助威

懂球帝 浏览 321

爱马仕女骑士无需披甲,却最为强大

时尚COSMO 浏览 3059

12万人挤爆,成都跨年集体狂欢

深蓝财经 浏览 2772

迈向新时代 上汽大众朗逸新老款车型对比

车质网 浏览 3029

接近量产状态 小米YU7 GT再次现身纽北赛道

车质网 浏览 3250

托蒂:我们那一代水平太高,很难再同时出现如此多的优秀球员

懂球帝 浏览 3403

蔚来2月交付2.08万台新车 同比增长57.6%

网易汽车 浏览 1994

媒体:被美国逼着“朝中国开枪” 韩国玩得起吗

澎湃新闻 浏览 3822

谷歌间接承认 Tensor G5 芯片 GPU 问题

IT之家 浏览 3603

今年最好看的4件毛衣!

LinkFashion 浏览 2834

康师傅换帅!创始人之子接棒CEO,去年薪酬937万元

中国基金报 浏览 3028
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1