爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

特朗普：美军...

切尔西近10...

VOGUE盛...

拜登为何卸任...

宁波方正携手...

强脑科技：预...

外套里面穿什么？这8件“姐感内搭”高级又好看

牛弹琴：荷兰控制中企简直＂白痴＂现在给中国道歉晚了

委内瑞拉外长：感谢中方支持

下辈子换我长郑恩彩这样好吗？

终于有一部国产剧，不靠「爽感」博眼球了

上海U20男足进全运8强，徐根宝：出线是第一位，成绩是硬道理

到了秋天才知道，年纪大的女人要告别“小脚裤”，这样穿显瘦

泰军摧毁6个柬埔寨诈骗基地称要斩断跨国犯罪根源

周星驰悼梁小龙，翻起港圈大佬们的恨海情天

杨凡导演靓丽登台，香港修复佳作惊喜呈现！

特朗普宣布将亲自设计战列舰:我是一个非常有审美的人

从对手到盟友，刘强东王兴联手要“联吴抗曹”？

曼奇尼自曝若阿莫林下课其可执教曼联！失业一年，在法国遇到拉爵

【年度爱用】她们2025年买得最值的，是这些

英国防大臣称想＂绑架＂普京俄方：痴人说梦

咖啡万店新王诞生：挪瓦如何以“寄生模式”隐秘扩张？

一句话，干掉586亿

今日热点：迪士尼OpenAI合作；JENNIE和DEX将出演新综艺……

刘亦菲更新初雪美图，穿12W外套雪中遛狗

影视大佬吴敦离世，贾静雯林志颖发文悼念

11月正式上市/五座实用空间福特探险者昆仑穿越版亮相

60岁老人猥亵7岁女童：将手伸入女童的生殖器官

“塌房失败”的李雪琴给所有人上了一课

近期石柯社媒频繁更新？他已签约成为杭州致禾文化旗下艺人