关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro763人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

邓丽君逝世31周年纪念日,三哥邓长富墓地献花:我从未忘记妹妹

素素娱乐 浏览 210

谷爱凌穿泡泡机,肯豆cos胜利女神,这届Met Gala的赢家到底是谁?

LinkFashion 浏览 193

刘涛为95花作配,国民女星的资源降级还是新机遇?

八卦三缺一 浏览 4400

杨幂视后梦碎了?《生万物》除女主之外全员拿奖

萌神木木 浏览 1805

星空有约|冬夜焰火!双子座流星雨即将迎来极大

新华社 浏览 3134

售价8.88万起 RELY威麟R08上市

功夫AUTO 浏览 4517

小鹏汽车11月交付新车36,728台 1-11月累计交付391,937台

网易汽车 浏览 3079

沪电股份:前三季度净利润同比增长47.03%

网易财经 浏览 3569

钟欣潼前夫被曝婚变,第三任妻子删光合照

树娃 浏览 3510

ELLE风尚盛典秒变菜市场,有人摔倒、有人调侃内涵,状况百出

Yuki女人故事 浏览 2928

斯塔尼希奇:现在这支拜仁的特别之处?我觉得是凝聚力

懂球帝 浏览 1744

售7.29万 第4代帝豪全球400万纪念款新车型上市

网易汽车 浏览 2727

万亿豪赌:OpenAI结盟芯片、云巨头,AI生态闭环了吗?

澎湃新闻 浏览 3857

足球报:海牛资金有困难,但追加奖金第一时间就发到球队手中

懂球帝 浏览 3454

AI设计出可杀灭细菌的功能性病毒,专家呼吁谨慎推进

IT之家 浏览 4588

鸣鸣很忙明天上市:获腾讯淡马锡等2亿美元融资 市值将超800亿

雷递 浏览 2484

巩俐的前夫是圈外高级打工人,75岁在新加坡养老

白面书誏 浏览 3633

谁说了算?泰伦-卢赛前说哈登可以出战,快船官方说卢说错了

懂球帝 浏览 2960

曾因"打包塑料袋10元1个"上热搜 宰客酒楼招牌被强拆

扬子晚报 浏览 30857

和任正非聊一聊,会有新品牌?

道哥说车 浏览 3818

哈梅内伊次子接任伊朗最高领袖:一直身居幕后

极目新闻 浏览 1780
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1