爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

小米现车选购...

信用卡分期年...

马德兴：张瑷...

2025长剧...

福建舰电磁弹...

她曾凭一锅酸...

足球：雷恩成为欧洲五大联赛第四大球员输送俱乐部

试过了，“和SIM卡并无差异”

美股开盘三大指数涨跌不一英伟达跌近2%

全球销冠比亚迪2025年纯电车型销量超越特斯拉

iX3的“弟弟”来了，BMW iX1测试伪装曝光，2027年登场

模速为核智领未来——徐汇人工智能产业的蝶变之路｜“十四五”答卷

暖心！海鸥飞过球场被皮球击中晕倒跌落，球员做心肺复苏将它救活

标普ESG得分跻身行业前20%，顺丰同城以ESG实践推动行业高质量发展

微星回应黄端16针电源接口松动，属于“缺陷”批次

难怪连央媒都发文悼念，许绍雄竟“藏”得这么深

特朗普高喊和平，以色列悄悄磨刀：巴勒斯坦的血腥噩梦结束了？

奇瑞的2025年，一场教科书级的“协同战”

长安汽车董事长朱华荣：预计到 2030 年，L2 辅助驾驶将成为标配

日本首相选举局势突变高市早苗的竞争对手出现了

3万月薪急招董秘！安徽五粮液大商要港股IPO？95后海归接棒，一天卖酒30万瓶

汽车图谱⑳｜新能源车迎最强“金九” 新势力头部月销达4万量级

特朗普：加沙停火协议“非常接近达成” 本周末或去中东

安卓机器人变透明！5月13日揭晓，Android史上最重要年份之一

伊能静没有代表作

华为：HarmonyOS 5终端设备数量突破2000万台

《逍遥》大结局：纪严下线订单终于到达，最终还是领导了结了他！

或成新公路之王! 极氪8X预售37.68万起

用AI「合成」演员，爱奇艺的新故事翻车了

这条裙子，今年悄悄火遍全网，冬天穿好有氛围