![]()
本文第一作者是江宇軒,清華大學(xué)博士生,研究方向?yàn)樯赡P汀⑽纳纛l和多模態(tài)學(xué)習(xí),指導(dǎo)老師為朱軍教授與竇維蓓教授。
文本到音頻(Text-to-Audio, TTA)生成技術(shù)近年來(lái)取得了顯著進(jìn)展,從早期的簡(jiǎn)單聲效合成逐步發(fā)展到基于擴(kuò)散模型的高保真音頻生成,能夠較好地還原復(fù)雜的自然語(yǔ)言描述,為影視配音、游戲音效及多媒體內(nèi)容創(chuàng)作提供了重要的技術(shù)支撐。
然而,現(xiàn)有 TTA 技術(shù)在精細(xì)化控制方面仍面臨挑戰(zhàn):一方面,模型難以實(shí)現(xiàn)對(duì)聲音事件發(fā)生時(shí)間的精確控制;另一方面,生成的語(yǔ)音內(nèi)容往往不夠清晰,缺乏可理解性。
針對(duì)這一問(wèn)題,清華大學(xué)研究團(tuán)隊(duì)提出了 ControlAudio,一種基于漸進(jìn)式擴(kuò)散建模的文生音頻方法。該方法通過(guò)系統(tǒng)性的數(shù)據(jù)構(gòu)建流程與漸進(jìn)式建模策略,在統(tǒng)一框架下實(shí)現(xiàn)了對(duì)時(shí)間結(jié)構(gòu)與語(yǔ)音內(nèi)容的聯(lián)合建模。
目前,該工作已被 ACL 2026 Main Conference 接收,并擬推薦為口頭報(bào)告。
![]()
- 論文地址:https://arxiv.org/abs/2510.08878
- 效果試聽(tīng):https://control-audio.github.io/Control-Audio
研究背景
文生音頻系統(tǒng)旨在合成與自然語(yǔ)言描述一致的音頻內(nèi)容(如「鳥(niǎo)兒正在鳴叫」),在高保真生成方面已取得顯著進(jìn)展,但在精細(xì)化控制維度仍存在明顯不足:
- 精確的時(shí)間控制:如「鳥(niǎo)兒在 2 至 5 秒間鳴叫」;
- 可理解語(yǔ)音生成:如「鳥(niǎo)兒在鳴叫,同時(shí)一名男子在說(shuō):『今天天氣真好』」。
然而,由于帶有精確時(shí)間標(biāo)注和語(yǔ)音轉(zhuǎn)錄的信息難以大規(guī)模獲取,可控 TTA 系統(tǒng)在規(guī)模化訓(xùn)練與生成能力上仍受到限制。同時(shí),現(xiàn)有方法通常僅關(guān)注單一控制維度,尚未在統(tǒng)一框架下同時(shí)實(shí)現(xiàn)時(shí)間控制與可理解語(yǔ)音生成。
核心方法
本文提出 ControlAudio,一種漸進(jìn)式擴(kuò)散建模方法,通過(guò)逐步建模文本、時(shí)間與音素等不同粒度的條件信息,實(shí)現(xiàn)可控的 TTA 生成。整體方法包含三個(gè)核心部分:
- 數(shù)據(jù)構(gòu)造與表征:通過(guò)人工標(biāo)注與仿真生成相結(jié)合的方式構(gòu)建多層級(jí)數(shù)據(jù),并設(shè)計(jì)結(jié)構(gòu)化提示詞(Structured Prompt),使預(yù)訓(xùn)練文本編碼器能夠統(tǒng)一編碼文本、時(shí)間與音素信息;
- 模型訓(xùn)練:采用漸進(jìn)式訓(xùn)練策略。首先在大規(guī)模文本 - 音頻數(shù)據(jù)上預(yù)訓(xùn)練擴(kuò)散模型,隨后逐步引入時(shí)間與語(yǔ)音內(nèi)容信息進(jìn)行建模,使模型逐步具備更細(xì)粒度的控制能力;
- 引導(dǎo)采樣:針對(duì)擴(kuò)散模型「由粗到細(xì)」的生成特性,設(shè)計(jì)漸進(jìn)式引導(dǎo)采樣策略,在推理過(guò)程中先生成整體時(shí)間結(jié)構(gòu),再逐步細(xì)化語(yǔ)音內(nèi)容。
![]()
漸進(jìn)式擴(kuò)散建模
ControlAudio 將多條件建模拆解為一個(gè)由粗到細(xì)的漸進(jìn)過(guò)程。
在訓(xùn)練階段,模型分三步逐步引入控制信號(hào):首先在大規(guī)模文本 - 音頻數(shù)據(jù)上預(yù)訓(xùn)練,學(xué)習(xí)基礎(chǔ)的文本到音頻生成能力;隨后在包含時(shí)間標(biāo)注的數(shù)據(jù)上進(jìn)行微調(diào),使模型能夠控制聲音事件的時(shí)間結(jié)構(gòu);最后進(jìn)一步引入音素信息進(jìn)行聯(lián)合訓(xùn)練,實(shí)現(xiàn)對(duì)語(yǔ)音內(nèi)容的建模。
在這一過(guò)程中,通過(guò)使用 Text、Text + Timing 以及 Text + Timing + Phoneme 等不同條件組合,逐步提升模型對(duì)細(xì)粒度控制信號(hào)的建模能力。
![]()
在推理階段,方法提出了漸進(jìn)式引導(dǎo)采樣策略:在擴(kuò)散早期,僅使用文本與時(shí)間條件進(jìn)行引導(dǎo),先生成整體的時(shí)間結(jié)構(gòu);在后期階段,再引入音素信息并提高引導(dǎo)強(qiáng)度,用于細(xì)化語(yǔ)音內(nèi)容。該設(shè)計(jì)與擴(kuò)散模型由粗到細(xì)的生成過(guò)程一致,從而在時(shí)間對(duì)齊與語(yǔ)音清晰度上取得更好的效果。
數(shù)據(jù)集構(gòu)建
針對(duì)可控 TTA 所需的時(shí)間標(biāo)注與語(yǔ)音內(nèi)容數(shù)據(jù)稀缺問(wèn)題,ControlAudio 構(gòu)建了一個(gè)多來(lái)源的數(shù)據(jù)體系,將真實(shí)標(biāo)注與仿真數(shù)據(jù)相結(jié)合。
首先,在真實(shí)數(shù)據(jù)方面,基于具有時(shí)間標(biāo)注的 AudioSet-SL,篩選包含語(yǔ)音的片段,并通過(guò)分離與轉(zhuǎn)寫(xiě)流程,獲得帶有時(shí)間戳與語(yǔ)音內(nèi)容的信息,將原始的 ?text, audio? 擴(kuò)展為 ?text, timing, phoneme, audio? 的細(xì)粒度數(shù)據(jù)。在此基礎(chǔ)上,進(jìn)一步構(gòu)建大規(guī)模仿真數(shù)據(jù)。
方法從真實(shí)數(shù)據(jù)中統(tǒng)計(jì)語(yǔ)音活動(dòng)分布,并據(jù)此合成單人或多人語(yǔ)音片段,按照合理的時(shí)間結(jié)構(gòu)進(jìn)行排列,并與背景音頻混合生成復(fù)雜音頻場(chǎng)景。該流程額外擴(kuò)展了超過(guò) 17 萬(wàn)條訓(xùn)練樣本,提升了數(shù)據(jù)規(guī)模與多樣性。
此外,在結(jié)構(gòu)化提示詞的構(gòu)建過(guò)程中,ControlAudio 引入基于鏈?zhǔn)酵评恚–hain-of-Thought, CoT)的自動(dòng)生成流程,將自然語(yǔ)言描述解析為「事件 — 時(shí)間 — 語(yǔ)音內(nèi)容」的結(jié)構(gòu)化表示,為模型提供更加清晰的條件輸入。
![]()
實(shí)驗(yàn)結(jié)果
為了驗(yàn)證 ControlAudio 的有效性,團(tuán)隊(duì)首先在時(shí)間可控音頻生成的 AudioCondition 測(cè)試集上進(jìn)行評(píng)估。相比現(xiàn)有方法,在事件時(shí)間對(duì)齊指標(biāo)上取得顯著提升,同時(shí)在 FAD、CLAP 等音頻質(zhì)量指標(biāo)上保持競(jìng)爭(zhēng)力甚至更優(yōu)表現(xiàn)。
![]()
在包含語(yǔ)音生成的評(píng)測(cè)任務(wù)中,ControlAudio 同樣展現(xiàn)出更強(qiáng)的語(yǔ)音可理解性與整體音頻質(zhì)量,驗(yàn)證了其在統(tǒng)一框架下同時(shí)建模時(shí)間結(jié)構(gòu)與語(yǔ)音內(nèi)容的能力。
![]()
在文生音頻任務(wù)中,ControlAudio 同樣取得了與當(dāng)前主流方法相當(dāng)甚至更優(yōu)的生成質(zhì)量,在引入時(shí)間與語(yǔ)音控制能力的同時(shí),并未降低基礎(chǔ)的文本到音頻生成性能。
![]()
總結(jié)與展望
ControlAudio 從數(shù)據(jù)構(gòu)建、模型訓(xùn)練到采樣策略三個(gè)層面系統(tǒng)性地解決了文生音頻中的精細(xì)化控制問(wèn)題,在統(tǒng)一框架下實(shí)現(xiàn)了文本、時(shí)間與語(yǔ)音內(nèi)容的協(xié)同建模,并在多項(xiàng)任務(wù)上取得了優(yōu)于現(xiàn)有方法的表現(xiàn)。
相比以往僅關(guān)注單一控制維度的工作,ControlAudio 展現(xiàn)了更強(qiáng)的通用性與擴(kuò)展?jié)摿Α?/strong>
隨著音頻與多模態(tài)生成模型的發(fā)展,越來(lái)越多系統(tǒng)開(kāi)始探索 Speech、Audio、Music 的統(tǒng)一建模范式。研究團(tuán)隊(duì)希望ControlAudio 所提出的「多粒度條件統(tǒng)一建模 + 漸進(jìn)式生成」思路,能夠?yàn)橥ㄓ靡纛l生成提供一種可擴(kuò)展的技術(shù)路徑,推動(dòng)模型從單一任務(wù)走向更復(fù)雜、多維度可控的內(nèi)容生成。
樣本展示
Text Prompt:Music plays, followed by mechanisms, typing, beeps, and an alarm.
Timing Prompt:Music : 0.00s - 10.00s; Beeps : 1.00s - 1.20s 3.00s - 3.20s 4.90s - 5.10s 6.90s - 7.10s; Typing : 1.20s - 7.80s; Alarm : 7.85s - 8.50s.
Structured prompt:Music plays, followed by mechanisms, typing, beeps, and an alarm. @{Music. & <0.00,10.00>}@{Beeps. & <1.00,1.20><3.00,3.20><4.90,5.10><6.90,7.10>}@{Typing. & <1.20,7.80>}@{Alarm. & <7.85,8.50>}
![]()
Text Prompt:A man speaking over an intercom as a crowd of people talk followed by a dog barking.
Content Prompt:and contain them until that person can be taken into custody effectively and safely on the part of the other team of police sheriffs.
Structured prompt:A man speaking over an intercom as a crowd of people talk followed by a dog barking. @{Crowd talking ambience & <0.00,10.00>}@{Male speech, man speaking & <0.46,5.14>"And contain them until that person can be taken into custody effectively and safely."<5.64,8.22>"On the part of the other team of police sheriffs."}@{Dog barking & <9.26,9.46>}
![]()
Text Prompt:Females voice narrating a scene as music is playing and rain drops are falling.
Content Prompt:Daniel came out of the airport. He raised one arm to hail a taxi.
Structured prompt:Females voice narrating a scene as music is playing and rain drops are falling. @{Music & <0.00,10.00>}@{Female speech, woman narrating & <2.62,4.65>"Daniel came out of the airport."<5.37,8.26>"He raised one arm to hail a taxi."}@{Rain falling & <8.26,10.00>}
![]()
Text Prompt:Splashing water followed by a girl speaking then scraping and spitting.
Content Prompt:This is the last time you did that first thing. Same thing.
Structured prompt:Splashing water followed by a girl speaking then scraping and spitting. @{Splashing water & <0.00,1.38>}@{Female speech, girl speaking & <1.57,4.52>"This is the last time you did that first thing. Same thing."}@{Scraping & <4.66,6.81><7.10,8.00>}@{Spitting & <8.10,8.48>}
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.