关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro782人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

曼城过往6战多特仅1负,两队近4次交手曼城3胜1平

懂球帝 浏览 3515

泸州老窖前三季度营收净利双降 国窖1573等中高档酒销量同比下滑10%

YOUNG财经 浏览 3467

中国AIGC用户破5亿,增长1倍;美团:今年超7成外卖低于15元;新能源事故,「破窗锤」被网友买爆

极客公园 浏览 3638

纯电移动"游戏机" 索尼本田合资AFEELA 1亮相CES

网易汽车 浏览 2682

依旧神仙打架!沈腾吴京易烊千玺齐聚春节档

梦小娱 浏览 2632

以色列:随时重返战场

极目新闻 浏览 1061

蔚来李斌:“降低事故率”和“使用时长”是衡量智驾能力的核心指标

澎湃新闻 浏览 4359

抢在苹果之前,三星推出三折叠手机

华尔街见闻官方 浏览 3232

赖清德被迫取消窜访斯威士兰 更多细节披露

澎湃新闻 浏览 34334

朵朵和小酒窝合体出道,才明白她下了一盘大棋

观察鉴娱 浏览 4258

叶总逼走李匆匆,才知肖格格攀上吴总的真相

阿腩讲娱乐 浏览 2728

短剧圈再添一枚190cm美男,尔冬升都夸他帅

喜欢历史的阿繁 浏览 2396

达姆施塔特工业大学发布SCICOQA数据集

科技行者 浏览 2500

刷游戏像刷视频,这个AI游戏版TikTok火了

智东西 浏览 1004

致态 TiPlus 7100s 固态硬盘发布:长江存储新一代颗粒,659 元起

IT之家 浏览 3417

7800亿招商证券董事长霍达辞职,朱江涛代行职责

红星资本局 浏览 230

2026春夏一定要拥有的6只包,好看又百搭

LinkFashion 浏览 1714

司晓迪扯出内娱灰产,难怪王大发连夜起诉割席,网友呼吁整治内娱

萌神木木 浏览 2035

这个冬天《鬼怪》“解冻”得有些早

时尚COSMO 浏览 3323

时隔十年上证指数重返3900点 四季度A股“开门红”

商业观察杂志社 浏览 3957

TimeSeriesScientist:AI首个实现全自动时间序列分析

科技行者 浏览 3661
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1