爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

王大陆逃兵役...

网友过完春节...

特朗普发布“...

机密报记者：...

六王赛：辛纳...

内维尔：我原...

这部创造口碑和票房奇迹的悬疑佳作十周年啦

白宫黑手伸进委总统卧室！一场践踏国际规则的“黑夜绑架”

插混加持新款捷途旅行者C-DM本月17日上市

曼城过往6战多特仅1负，两队近4次交手曼城3胜1平

泸州老窖前三季度营收净利双降国窖1573等中高档酒销量同比下滑10%

中国AIGC用户破5亿，增长1倍；美团：今年超7成外卖低于15元；新能源事故，「破窗锤」被网友买爆

纯电移动＂游戏机＂索尼本田合资AFEELA 1亮相CES

依旧神仙打架！沈腾吴京易烊千玺齐聚春节档

以色列：随时重返战场

蔚来李斌：“降低事故率”和“使用时长”是衡量智驾能力的核心指标

抢在苹果之前，三星推出三折叠手机

赖清德被迫取消窜访斯威士兰更多细节披露

朵朵和小酒窝合体出道，才明白她下了一盘大棋

叶总逼走李匆匆，才知肖格格攀上吴总的真相

短剧圈再添一枚190cm美男，尔冬升都夸他帅

达姆施塔特工业大学发布SCICOQA数据集

刷游戏像刷视频，这个AI游戏版TikTok火了

致态 TiPlus 7100s 固态硬盘发布：长江存储新一代颗粒，659 元起

7800亿招商证券董事长霍达辞职，朱江涛代行职责

2026春夏一定要拥有的6只包，好看又百搭

司晓迪扯出内娱灰产，难怪王大发连夜起诉割席，网友呼吁整治内娱

这个冬天《鬼怪》“解冻”得有些早

时隔十年上证指数重返3900点四季度A股“开门红”

TimeSeriesScientist：AI首个实现全自动时间序列分析