关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro780人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

下辈子换我长郑恩彩这样好吗?

时尚COSMO 浏览 2868

终于有一部国产剧,不靠「爽感」博眼球了

独立鱼 浏览 2593

上海U20男足进全运8强,徐根宝:出线是第一位,成绩是硬道理

懂球帝 浏览 3559

到了秋天才知道,年纪大的女人要告别“小脚裤”,这样穿显瘦

静儿时尚达人 浏览 3671

泰军摧毁6个柬埔寨诈骗基地 称要斩断跨国犯罪根源

扬子晚报 浏览 2981

周星驰悼梁小龙,翻起港圈大佬们的恨海情天

仙女事件簿 浏览 2512

杨凡导演靓丽登台,香港修复佳作惊喜呈现!

幕味儿 浏览 3668

特朗普宣布将亲自设计战列舰:我是一个非常有审美的人

澎湃新闻 浏览 31318

从对手到盟友,刘强东王兴联手要“联吴抗曹”?

BT财经 浏览 3662

曼奇尼自曝若阿莫林下课其可执教曼联!失业一年,在法国遇到拉爵

罗米的曼联博客 浏览 3728

【年度爱用】她们2025年买得最值的,是这些

黎贝卡的异想世界 浏览 2669

英国防大臣称想"绑架"普京 俄方:痴人说梦

界面新闻 浏览 2628

咖啡万店新王诞生:挪瓦如何以“寄生模式”隐秘扩张?

虎嗅APP 浏览 2986

一句话,干掉586亿

深蓝财经 浏览 4479

今日热点:迪士尼OpenAI合作;JENNIE和DEX将出演新综艺……

伊周潮流 浏览 2912

刘亦菲更新初雪美图,穿12W外套雪中遛狗

观察鉴娱 浏览 2959

影视大佬吴敦离世,贾静雯林志颖发文悼念

素素娱乐 浏览 2414

11月正式上市/五座实用空间 福特探险者昆仑穿越版亮相

网易汽车 浏览 3691

60岁老人猥亵7岁女童:将手伸入女童的生殖器官

中国新闻周刊 浏览 8390

“塌房失败”的李雪琴给所有人上了一课

乡野小珥 浏览 3304

近期石柯社媒频繁更新?他已签约成为杭州致禾文化旗下艺人

懂球帝 浏览 3985
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1