<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      清華新作ControlAudio:聲音何時(shí)響、說(shuō)啥話(huà)?都能按劇本可控生成

      0
      分享至



      本文第一作者是江宇軒,清華大學(xué)博士生,研究方向?yàn)樯赡P汀⑽纳纛l和多模態(tài)學(xué)習(xí),指導(dǎo)老師為朱軍教授與竇維蓓教授。

      文本到音頻(Text-to-Audio, TTA)生成技術(shù)近年來(lái)取得了顯著進(jìn)展,從早期的簡(jiǎn)單聲效合成逐步發(fā)展到基于擴(kuò)散模型的高保真音頻生成,能夠較好地還原復(fù)雜的自然語(yǔ)言描述,為影視配音、游戲音效及多媒體內(nèi)容創(chuàng)作提供了重要的技術(shù)支撐。

      然而,現(xiàn)有 TTA 技術(shù)在精細(xì)化控制方面仍面臨挑戰(zhàn):一方面,模型難以實(shí)現(xiàn)對(duì)聲音事件發(fā)生時(shí)間的精確控制;另一方面,生成的語(yǔ)音內(nèi)容往往不夠清晰,缺乏可理解性。

      針對(duì)這一問(wèn)題,清華大學(xué)研究團(tuán)隊(duì)提出了 ControlAudio,一種基于漸進(jìn)式擴(kuò)散建模的文生音頻方法。該方法通過(guò)系統(tǒng)性的數(shù)據(jù)構(gòu)建流程與漸進(jìn)式建模策略,在統(tǒng)一框架下實(shí)現(xiàn)了對(duì)時(shí)間結(jié)構(gòu)與語(yǔ)音內(nèi)容的聯(lián)合建模。

      目前,該工作已被 ACL 2026 Main Conference 接收,并擬推薦為口頭報(bào)告。



      • 論文地址:https://arxiv.org/abs/2510.08878
      • 效果試聽(tīng):https://control-audio.github.io/Control-Audio

      研究背景

      文生音頻系統(tǒng)旨在合成與自然語(yǔ)言描述一致的音頻內(nèi)容(如「鳥(niǎo)兒正在鳴叫」),在高保真生成方面已取得顯著進(jìn)展,但在精細(xì)化控制維度仍存在明顯不足:

      • 精確的時(shí)間控制:如「鳥(niǎo)兒在 2 至 5 秒間鳴叫」;
      • 可理解語(yǔ)音生成:如「鳥(niǎo)兒在鳴叫,同時(shí)一名男子在說(shuō):『今天天氣真好』」。

      然而,由于帶有精確時(shí)間標(biāo)注和語(yǔ)音轉(zhuǎn)錄的信息難以大規(guī)模獲取,可控 TTA 系統(tǒng)在規(guī)模化訓(xùn)練與生成能力上仍受到限制。同時(shí),現(xiàn)有方法通常僅關(guān)注單一控制維度,尚未在統(tǒng)一框架下同時(shí)實(shí)現(xiàn)時(shí)間控制與可理解語(yǔ)音生成。

      核心方法

      本文提出 ControlAudio,一種漸進(jìn)式擴(kuò)散建模方法,通過(guò)逐步建模文本、時(shí)間與音素等不同粒度的條件信息,實(shí)現(xiàn)可控的 TTA 生成。整體方法包含三個(gè)核心部分:

      1. 數(shù)據(jù)構(gòu)造與表征:通過(guò)人工標(biāo)注與仿真生成相結(jié)合的方式構(gòu)建多層級(jí)數(shù)據(jù),并設(shè)計(jì)結(jié)構(gòu)化提示詞(Structured Prompt),使預(yù)訓(xùn)練文本編碼器能夠統(tǒng)一編碼文本、時(shí)間與音素信息;
      2. 模型訓(xùn)練:采用漸進(jìn)式訓(xùn)練策略。首先在大規(guī)模文本 - 音頻數(shù)據(jù)上預(yù)訓(xùn)練擴(kuò)散模型,隨后逐步引入時(shí)間與語(yǔ)音內(nèi)容信息進(jìn)行建模,使模型逐步具備更細(xì)粒度的控制能力;
      3. 引導(dǎo)采樣:針對(duì)擴(kuò)散模型「由粗到細(xì)」的生成特性,設(shè)計(jì)漸進(jìn)式引導(dǎo)采樣策略,在推理過(guò)程中先生成整體時(shí)間結(jié)構(gòu),再逐步細(xì)化語(yǔ)音內(nèi)容。



      漸進(jìn)式擴(kuò)散建模

      ControlAudio 將多條件建模拆解為一個(gè)由粗到細(xì)的漸進(jìn)過(guò)程。

      在訓(xùn)練階段,模型分三步逐步引入控制信號(hào):首先在大規(guī)模文本 - 音頻數(shù)據(jù)上預(yù)訓(xùn)練,學(xué)習(xí)基礎(chǔ)的文本到音頻生成能力;隨后在包含時(shí)間標(biāo)注的數(shù)據(jù)上進(jìn)行微調(diào),使模型能夠控制聲音事件的時(shí)間結(jié)構(gòu);最后進(jìn)一步引入音素信息進(jìn)行聯(lián)合訓(xùn)練,實(shí)現(xiàn)對(duì)語(yǔ)音內(nèi)容的建模。

      在這一過(guò)程中,通過(guò)使用 Text、Text + Timing 以及 Text + Timing + Phoneme 等不同條件組合,逐步提升模型對(duì)細(xì)粒度控制信號(hào)的建模能力。



      在推理階段,方法提出了漸進(jìn)式引導(dǎo)采樣策略:在擴(kuò)散早期,僅使用文本與時(shí)間條件進(jìn)行引導(dǎo),先生成整體的時(shí)間結(jié)構(gòu);在后期階段,再引入音素信息并提高引導(dǎo)強(qiáng)度,用于細(xì)化語(yǔ)音內(nèi)容。該設(shè)計(jì)與擴(kuò)散模型由粗到細(xì)的生成過(guò)程一致,從而在時(shí)間對(duì)齊與語(yǔ)音清晰度上取得更好的效果。

      數(shù)據(jù)集構(gòu)建

      針對(duì)可控 TTA 所需的時(shí)間標(biāo)注與語(yǔ)音內(nèi)容數(shù)據(jù)稀缺問(wèn)題,ControlAudio 構(gòu)建了一個(gè)多來(lái)源的數(shù)據(jù)體系,將真實(shí)標(biāo)注與仿真數(shù)據(jù)相結(jié)合。

      首先,在真實(shí)數(shù)據(jù)方面,基于具有時(shí)間標(biāo)注的 AudioSet-SL,篩選包含語(yǔ)音的片段,并通過(guò)分離與轉(zhuǎn)寫(xiě)流程,獲得帶有時(shí)間戳與語(yǔ)音內(nèi)容的信息,將原始的 ?text, audio? 擴(kuò)展為 ?text, timing, phoneme, audio? 的細(xì)粒度數(shù)據(jù)。在此基礎(chǔ)上,進(jìn)一步構(gòu)建大規(guī)模仿真數(shù)據(jù)。

      方法從真實(shí)數(shù)據(jù)中統(tǒng)計(jì)語(yǔ)音活動(dòng)分布,并據(jù)此合成單人或多人語(yǔ)音片段,按照合理的時(shí)間結(jié)構(gòu)進(jìn)行排列,并與背景音頻混合生成復(fù)雜音頻場(chǎng)景。該流程額外擴(kuò)展了超過(guò) 17 萬(wàn)條訓(xùn)練樣本,提升了數(shù)據(jù)規(guī)模與多樣性。

      此外,在結(jié)構(gòu)化提示詞的構(gòu)建過(guò)程中,ControlAudio 引入基于鏈?zhǔn)酵评恚–hain-of-Thought, CoT)的自動(dòng)生成流程,將自然語(yǔ)言描述解析為「事件 — 時(shí)間 — 語(yǔ)音內(nèi)容」的結(jié)構(gòu)化表示,為模型提供更加清晰的條件輸入。



      實(shí)驗(yàn)結(jié)果

      為了驗(yàn)證 ControlAudio 的有效性,團(tuán)隊(duì)首先在時(shí)間可控音頻生成的 AudioCondition 測(cè)試集上進(jìn)行評(píng)估。相比現(xiàn)有方法,在事件時(shí)間對(duì)齊指標(biāo)上取得顯著提升,同時(shí)在 FAD、CLAP 等音頻質(zhì)量指標(biāo)上保持競(jìng)爭(zhēng)力甚至更優(yōu)表現(xiàn)。



      在包含語(yǔ)音生成的評(píng)測(cè)任務(wù)中,ControlAudio 同樣展現(xiàn)出更強(qiáng)的語(yǔ)音可理解性與整體音頻質(zhì)量,驗(yàn)證了其在統(tǒng)一框架下同時(shí)建模時(shí)間結(jié)構(gòu)與語(yǔ)音內(nèi)容的能力。



      在文生音頻任務(wù)中,ControlAudio 同樣取得了與當(dāng)前主流方法相當(dāng)甚至更優(yōu)的生成質(zhì)量,在引入時(shí)間與語(yǔ)音控制能力的同時(shí),并未降低基礎(chǔ)的文本到音頻生成性能。



      總結(jié)與展望

      ControlAudio 從數(shù)據(jù)構(gòu)建、模型訓(xùn)練到采樣策略三個(gè)層面系統(tǒng)性地解決了文生音頻中的精細(xì)化控制問(wèn)題,在統(tǒng)一框架下實(shí)現(xiàn)了文本、時(shí)間與語(yǔ)音內(nèi)容的協(xié)同建模,并在多項(xiàng)任務(wù)上取得了優(yōu)于現(xiàn)有方法的表現(xiàn)。

      相比以往僅關(guān)注單一控制維度的工作,ControlAudio 展現(xiàn)了更強(qiáng)的通用性與擴(kuò)展?jié)摿Α?/strong>

      隨著音頻與多模態(tài)生成模型的發(fā)展,越來(lái)越多系統(tǒng)開(kāi)始探索 Speech、Audio、Music 的統(tǒng)一建模范式。研究團(tuán)隊(duì)希望ControlAudio 所提出的「多粒度條件統(tǒng)一建模 + 漸進(jìn)式生成」思路,能夠?yàn)橥ㄓ靡纛l生成提供一種可擴(kuò)展的技術(shù)路徑,推動(dòng)模型從單一任務(wù)走向更復(fù)雜、多維度可控的內(nèi)容生成。

      樣本展示

      Text Prompt:Music plays, followed by mechanisms, typing, beeps, and an alarm.

      Timing Prompt:Music : 0.00s - 10.00s; Beeps : 1.00s - 1.20s 3.00s - 3.20s 4.90s - 5.10s 6.90s - 7.10s; Typing : 1.20s - 7.80s; Alarm : 7.85s - 8.50s.

      Structured prompt:Music plays, followed by mechanisms, typing, beeps, and an alarm. @{Music. & <0.00,10.00>}@{Beeps. & <1.00,1.20><3.00,3.20><4.90,5.10><6.90,7.10>}@{Typing. & <1.20,7.80>}@{Alarm. & <7.85,8.50>}



      Text Prompt:A man speaking over an intercom as a crowd of people talk followed by a dog barking.

      Content Prompt:and contain them until that person can be taken into custody effectively and safely on the part of the other team of police sheriffs.

      Structured prompt:A man speaking over an intercom as a crowd of people talk followed by a dog barking. @{Crowd talking ambience & <0.00,10.00>}@{Male speech, man speaking & <0.46,5.14>"And contain them until that person can be taken into custody effectively and safely."<5.64,8.22>"On the part of the other team of police sheriffs."}@{Dog barking & <9.26,9.46>}



      Text Prompt:Females voice narrating a scene as music is playing and rain drops are falling.

      Content Prompt:Daniel came out of the airport. He raised one arm to hail a taxi.

      Structured prompt:Females voice narrating a scene as music is playing and rain drops are falling. @{Music & <0.00,10.00>}@{Female speech, woman narrating & <2.62,4.65>"Daniel came out of the airport."<5.37,8.26>"He raised one arm to hail a taxi."}@{Rain falling & <8.26,10.00>}



      Text Prompt:Splashing water followed by a girl speaking then scraping and spitting.

      Content Prompt:This is the last time you did that first thing. Same thing.

      Structured prompt:Splashing water followed by a girl speaking then scraping and spitting. @{Splashing water & <0.00,1.38>}@{Female speech, girl speaking & <1.57,4.52>"This is the last time you did that first thing. Same thing."}@{Scraping & <4.66,6.81><7.10,8.00>}@{Spitting & <8.10,8.48>}



      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      廣東夫妻辦完離婚揮手告別,妻子轉(zhuǎn)身蹲地大哭,下一秒結(jié)局神反轉(zhuǎn)

      廣東夫妻辦完離婚揮手告別,妻子轉(zhuǎn)身蹲地大哭,下一秒結(jié)局神反轉(zhuǎn)

      新時(shí)代的兩性情感
      2026-04-26 04:57:00
      偉大的13-9!小鋼炮復(fù)仇囧哥進(jìn)世錦賽8強(qiáng),創(chuàng)2紀(jì)錄,靜候霍金斯?

      偉大的13-9!小鋼炮復(fù)仇囧哥進(jìn)世錦賽8強(qiáng),創(chuàng)2紀(jì)錄,靜候霍金斯?

      劉姚堯的文字城堡
      2026-04-25 20:50:51
      5月1日起車(chē)窗貼紙全作廢!不辦電子標(biāo)罰200扣1分,車(chē)主必看的指南

      5月1日起車(chē)窗貼紙全作廢!不辦電子標(biāo)罰200扣1分,車(chē)主必看的指南

      侃故事的阿慶
      2026-04-25 07:58:23
      直入十分角,埃澤的世界波預(yù)期進(jìn)球僅為0.03

      直入十分角,埃澤的世界波預(yù)期進(jìn)球僅為0.03

      懂球帝
      2026-04-26 01:55:27
      整整70艘驅(qū)逐艦,配備4700發(fā)垂發(fā)導(dǎo)彈,追美國(guó)海軍,進(jìn)入關(guān)鍵時(shí)刻

      整整70艘驅(qū)逐艦,配備4700發(fā)垂發(fā)導(dǎo)彈,追美國(guó)海軍,進(jìn)入關(guān)鍵時(shí)刻

      愛(ài)吃醋的貓咪
      2026-04-25 23:03:26
      北控出局賽后,京媒罕見(jiàn)點(diǎn)名批評(píng)1人,京迷喊話(huà):集體給張帆道歉

      北控出局賽后,京媒罕見(jiàn)點(diǎn)名批評(píng)1人,京迷喊話(huà):集體給張帆道歉

      后仰大風(fēng)車(chē)
      2026-04-25 07:10:13
      身價(jià)暴漲!季后賽這5位球員打出了價(jià)值

      身價(jià)暴漲!季后賽這5位球員打出了價(jià)值

      舟望停云
      2026-04-25 21:09:48
      同事月薪8000,為了償還200萬(wàn)房貸,多次申請(qǐng)漲薪被拒,跳槽下家給漲薪50%,結(jié)果領(lǐng)導(dǎo)說(shuō):你要想離職,就有競(jìng)業(yè)限制!

      同事月薪8000,為了償還200萬(wàn)房貸,多次申請(qǐng)漲薪被拒,跳槽下家給漲薪50%,結(jié)果領(lǐng)導(dǎo)說(shuō):你要想離職,就有競(jìng)業(yè)限制!

      二胡的歲月如歌
      2026-04-25 08:34:05
      9-7!趙心童三連鞭領(lǐng)先丁俊暉斬獲晉級(jí)先機(jī),世錦賽8強(qiáng)爭(zhēng)奪存懸念

      9-7!趙心童三連鞭領(lǐng)先丁俊暉斬獲晉級(jí)先機(jī),世錦賽8強(qiáng)爭(zhēng)奪存懸念

      世界體壇觀(guān)察家
      2026-04-26 00:14:48
      導(dǎo)彈儲(chǔ)量超伊朗100倍,美國(guó)重新認(rèn)清中國(guó),英媒:中國(guó)是最大贏家

      導(dǎo)彈儲(chǔ)量超伊朗100倍,美國(guó)重新認(rèn)清中國(guó),英媒:中國(guó)是最大贏家

      小莜讀史
      2026-04-25 17:56:35
      李啟言父親病逝,日夜照顧癱瘓兒子病倒,曾拒絕李澤楷千萬(wàn)救濟(jì)金

      李啟言父親病逝,日夜照顧癱瘓兒子病倒,曾拒絕李澤楷千萬(wàn)救濟(jì)金

      開(kāi)開(kāi)森森
      2026-04-25 18:07:45
      央視首次曝光:全球最強(qiáng)光刻機(jī)亮相,中國(guó)再次打破西方技術(shù)封鎖

      央視首次曝光:全球最強(qiáng)光刻機(jī)亮相,中國(guó)再次打破西方技術(shù)封鎖

      秋風(fēng)悲畫(huà)芯
      2026-04-24 20:52:16
      “大齡剩女”正在集體消失!不是嫁人了,是被現(xiàn)實(shí)一巴掌扇到隱形

      “大齡剩女”正在集體消失!不是嫁人了,是被現(xiàn)實(shí)一巴掌扇到隱形

      王二哥老搞笑
      2026-04-23 18:52:04
      單身越久,死亡風(fēng)險(xiǎn)越高?中國(guó)科學(xué)家:每周2次性生活是安全線(xiàn)

      單身越久,死亡風(fēng)險(xiǎn)越高?中國(guó)科學(xué)家:每周2次性生活是安全線(xiàn)

      思思夜話(huà)
      2026-04-23 11:30:19
      足壇一夜動(dòng)態(tài):拜仁驚天逆轉(zhuǎn),巴薩9連勝領(lǐng)跑,曼城劍指三冠王

      足壇一夜動(dòng)態(tài):拜仁驚天逆轉(zhuǎn),巴薩9連勝領(lǐng)跑,曼城劍指三冠王

      釘釘陌上花開(kāi)
      2026-04-26 06:19:36
      太可怕了!繼注射藥物、熱巴事件后,王陽(yáng)再揭?jiàn)蕵?lè)圈最臟的一面

      太可怕了!繼注射藥物、熱巴事件后,王陽(yáng)再揭?jiàn)蕵?lè)圈最臟的一面

      橙星文娛
      2026-04-17 13:19:56
      “老得慢”的男人,多半愛(ài)吃這3種食物,全部都吃過(guò)的就偷著樂(lè)吧

      “老得慢”的男人,多半愛(ài)吃這3種食物,全部都吃過(guò)的就偷著樂(lè)吧

      觀(guān)星賞月
      2026-04-25 22:04:06
      火力全開(kāi)!盧秀燕組藍(lán)營(yíng)“鐵三角”,兩日聯(lián)動(dòng)兩大人物

      火力全開(kāi)!盧秀燕組藍(lán)營(yíng)“鐵三角”,兩日聯(lián)動(dòng)兩大人物

      奇思妙想生活家
      2026-04-25 21:59:42
      金莎備孕成功刷屏,原來(lái)3年前就凍了7枚胚胎!高齡懷孕不再憑運(yùn)氣

      金莎備孕成功刷屏,原來(lái)3年前就凍了7枚胚胎!高齡懷孕不再憑運(yùn)氣

      一盅情懷
      2026-04-25 19:31:31
      A股:散戶(hù)做好下車(chē)準(zhǔn)備,主力意圖已經(jīng)很明確,下周,要變天了?

      A股:散戶(hù)做好下車(chē)準(zhǔn)備,主力意圖已經(jīng)很明確,下周,要變天了?

      云鵬敘事
      2026-04-26 00:00:07
      2026-04-26 06:39:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專(zhuān)業(yè)的人工智能媒體
      12852文章數(shù) 142636關(guān)注度
      往期回顧 全部

      科技要聞

      DeepSeek V4發(fā)布!黃仁勛預(yù)言的"災(zāi)難"降臨

      頭條要聞

      媒體:美軍在中東罕見(jiàn)高密度集結(jié) 伊朗開(kāi)始調(diào)整戰(zhàn)術(shù)

      頭條要聞

      媒體:美軍在中東罕見(jiàn)高密度集結(jié) 伊朗開(kāi)始調(diào)整戰(zhàn)術(shù)

      體育要聞

      那一刻開(kāi)始,兩支球隊(duì)的命運(yùn)悄然改變了

      娛樂(lè)要聞

      《我們的爸爸2》第一季完美爸爸翻車(chē)了

      財(cái)經(jīng)要聞

      90%訂單消失,中東旺季沒(méi)了

      汽車(chē)要聞

      2026款樂(lè)道L90亮相北京車(chē)展 樂(lè)道L80正式官宣

      態(tài)度原創(chuàng)

      時(shí)尚
      家居
      本地
      健康
      教育

      這些穿搭適合春天!外套彩色內(nèi)搭白色、褲子穿基礎(chǔ)款,舒適大方

      家居要聞

      自然肌理 溫潤(rùn)美學(xué)

      本地新聞

      云游中國(guó)|逛世界風(fēng)箏都 留學(xué)生探秘中國(guó)傳統(tǒng)文化

      干細(xì)胞如何讓燒燙傷皮膚"再生"?

      教育要聞

      跟孩子說(shuō)話(huà)要小心:你強(qiáng)調(diào)什么,他就變成什么

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 日韩精品久久久久久免费| 久久婷婷激情综合色综合俺也去| 呈贡县| 久久人妻无码一区二区| 中文字幕日韩精品有码视频| 无码人妻精品一区二区三区66| 久久性视频| 精品一区二区三区东京热| 亚洲色鬼| 午夜性刺激在线观看| 男人j进女人p免费视频| 国产成人一区二区三区视频免费| 日韩一级视频| 无码少妇高潮浪潮av久久| 一区二区不卡国产精品| 亚洲国产精品成人综合色在线婷婷| 又色又爽又黄18禁美女裸身无遮挡| 五十路丰满中年熟女中出| 国产熟妇搡bbbb搡bbbb| 日韩精品亚洲精品第一页| 人妻换人妻仑乱| 国内自拍av在线免费| 丝袜精品字幕| 京山县| 99久久精品久久久久久婷婷| 成人免费A级毛片无码片2022| 精精国产xxxx视频在线| 国产成人无码专区| 四虎成人精品无码永久在线 | 97人妻精品一区二区三区| 成人综合伊人五月婷久久| 男女性高爱潮免费网站| 91资源在线观看| 亚洲午夜精品久久久久久抢| 91亚色| 拍国产真实乱人偷精品| 美日韩av一区二区三区| 一本色道久久88精品综合 | 亚洲精品久久久久国色天香| 手机看片1024你懂的自拍| 真实国产乱子伦视频|