关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro793人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

全球销冠 比亚迪2025年纯电车型销量超越特斯拉

小号撩车 浏览 2693

iX3的“弟弟”来了,BMW iX1测试伪装曝光,2027年登场

ams车评网 浏览 3846

模速为核 智领未来——徐汇人工智能产业的蝶变之路|“十四五”答卷

上观新闻 浏览 3282

暖心!海鸥飞过球场被皮球击中晕倒跌落,球员做心肺复苏将它救活

风过乡 浏览 2076

标普ESG得分跻身行业前20%,顺丰同城以ESG实践推动行业高质量发展

上观新闻 浏览 535

微星回应黄端16针电源接口松动,属于“缺陷”批次

IT之家 浏览 2021

难怪连央媒都发文悼念,许绍雄竟“藏”得这么深

凡知 浏览 2984

特朗普高喊和平,以色列悄悄磨刀:巴勒斯坦的血腥噩梦结束了?

宋鸿兵 浏览 3654

奇瑞的2025年,一场教科书级的“协同战”

车评社Auto 浏览 2845

长安汽车董事长朱华荣:预计到 2030 年,L2 辅助驾驶将成为标配

IT之家 浏览 3710

日本首相选举局势突变 高市早苗的竞争对手出现了

极目新闻 浏览 6900

3万月薪急招董秘!安徽五粮液大商要港股IPO?95后海归接棒,一天卖酒30万瓶

时代周报 浏览 2644

汽车图谱⑳|新能源车迎最强“金九” 新势力头部月销达4万量级

贝壳财经 浏览 3789

特朗普:加沙停火协议“非常接近达成” 本周末或去中东

央视新闻客户端 浏览 18019

安卓机器人变透明!5月13日揭晓,Android史上最重要年份之一

IT之家 浏览 308

伊能静没有代表作

江湖人称艾掌门 浏览 3861

华为:HarmonyOS 5终端设备数量突破2000万台

大象新闻 浏览 4344

《逍遥》大结局:纪严下线订单终于到达,最终还是领导了结了他!

肆季娱乐 浏览 2826

或成新公路之王! 极氪8X预售37.68万起

网易汽车 浏览 1730

用AI「合成」演员,爱奇艺的新故事翻车了

豹变 浏览 784

这条裙子,今年悄悄火遍全网,冬天穿好有氛围

黎贝卡的异想世界 浏览 3140
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1