最近在 B 站上,你是否也刷到過(guò)一些 “魔性” 又神奇的 AI 視頻?比如英文版《甄嬛傳》、坦克飛天、曹操大戰(zhàn)孫悟空…… 這些作品不僅完美復(fù)現(xiàn)了原角色的音色,連情感和韻律都做到了高度還原!更讓人驚訝的是,它們居然全都是靠 AI 生成的!
英文版
甄嬛傳他來(lái)
讓坦克飛
B 站開源 index-tts-2.0 長(zhǎng)視頻測(cè)試,效果真的強(qiáng),曹操大戰(zhàn)孫悟空
如果讓 AI 開中文蘋果發(fā)布會(huì),indextts2 效果展示
據(jù)悉,這些視頻都是運(yùn)用了嗶哩嗶哩 Index 團(tuán)隊(duì)最新開源的文本轉(zhuǎn)語(yǔ)音模型 IndexTTS-2.0, 這一模型從 demo 發(fā)布起,就在海內(nèi)外社區(qū)引發(fā)了不少的關(guān)注。目前該工作在 Github 已超過(guò) 10k stars 。
![]()
![]()
![]()
論文標(biāo)題:IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech
論文鏈接:https://arxiv.org/abs/2506.21619
github 鏈接:https://github.com/index-tts/index-tts
魔搭體驗(yàn)頁(yè):https://modelscope.cn/studios/IndexTeam/IndexTTS-2-Demo
HuggingFace 體驗(yàn)頁(yè):https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo
官宣視頻:https://www.bilibili.com/video/BV136a9zqEk5/
近年來(lái),大規(guī)模文本轉(zhuǎn)語(yǔ)音(Text-to-Speech, TTS)模型在自然度和表現(xiàn)力上取得了顯著進(jìn)展,但如何讓語(yǔ)音「在韻律自然的同時(shí),又能嚴(yán)格對(duì)齊時(shí)長(zhǎng)」仍是懸而未決的難題。傳統(tǒng)自回歸(Autoregressive, AR)模型雖然在韻律自然性和風(fēng)格遷移上占優(yōu),卻難以做到精準(zhǔn)時(shí)長(zhǎng)控制;而非自回歸(Non-Autoregressive, NAR)方法雖能輕松操縱時(shí)長(zhǎng),卻往往犧牲了語(yǔ)音的自然感和情緒表現(xiàn)力。如何在保留 AR 模型優(yōu)勢(shì)的同時(shí),突破其核心限制,成為了前沿挑戰(zhàn)。
來(lái)自嗶哩嗶哩的 IndexTTS 團(tuán)隊(duì)創(chuàng)新性地提出了一種通用于 AR 系統(tǒng)的 “時(shí)間編碼” 機(jī)制,首次解決了傳統(tǒng) AR 模型難以精確控制語(yǔ)音時(shí)長(zhǎng)的問(wèn)題。這一新穎的架構(gòu)設(shè)計(jì)不僅解決了時(shí)長(zhǎng)控制問(wèn)題,更引入了音色與情感的解耦建模,實(shí)現(xiàn)了前所未有的情感表現(xiàn)力和靈活控制,在多個(gè)指標(biāo)上全面超越現(xiàn)有 SOTA 系統(tǒng)。
研究方法
IndexTTS2 由三個(gè)核心模塊組成:Text-to-Semantic(T2S) 、Semantic-to-Mel(S2M) 以及 BigVGANv2 聲碼器。首先,T2S 模塊基于輸入的源文本、風(fēng)格提示、音色提示以及一個(gè)可選的目標(biāo)語(yǔ)音 token 數(shù),生成對(duì)應(yīng)的語(yǔ)義 token 序列。然后,S2M 模塊以語(yǔ)義 token 和音色提示作為輸入,進(jìn)一步預(yù)測(cè)出梅爾頻譜圖。最后,BigVGANv2 聲碼器將梅爾頻譜圖轉(zhuǎn)換為高質(zhì)量的語(yǔ)音波形,完成端到端的語(yǔ)音合成過(guò)程。
IndexTTS2 可以在零樣本條件下生成自然流暢的多情感、跨語(yǔ)言語(yǔ)音。它還支持在自回歸框架下精確控制語(yǔ)音時(shí)長(zhǎng),讓合成既可控又不失自然。同時(shí)具備工業(yè)級(jí)性能,既適合研究探索,也能直接應(yīng)用到實(shí)際場(chǎng)景中。
![]()
1、基于 AR 架構(gòu)的時(shí)長(zhǎng)控制
在 IndexTTS2 中,針對(duì)自回歸 (AR) TTS 難以精確控制語(yǔ)音時(shí)長(zhǎng)的問(wèn)題,提出了基于 token 數(shù)量約束 的解決方案。核心思路是:在生成時(shí)可以指定所需的語(yǔ)義 token 數(shù),模型通過(guò)一個(gè)專門的時(shí)長(zhǎng) embedding 將這個(gè)信息注入到 Text-to-Semantic 模塊,通過(guò)對(duì)合成 token 的數(shù)量強(qiáng)約束來(lái)實(shí)現(xiàn)生成語(yǔ)音時(shí)長(zhǎng)控制。訓(xùn)練階段隨機(jī)引入不同比例的信號(hào)層時(shí)長(zhǎng)縮放 (如 0.75×、1.25×) 任務(wù),使模型可以學(xué)會(huì)在各種長(zhǎng)度要求下仍然保持語(yǔ)義連貫和情感自然。
實(shí)驗(yàn)表明,這種方法在不同語(yǔ)言(中 / 英)上的 token-number error rate 非常低,即模型幾乎能嚴(yán)格按照指定的 token 數(shù)量生成語(yǔ)音,同時(shí)在合成質(zhì)量、情感保真度和自然度上保持較好表現(xiàn)。換句話說(shuō),IndexTTS2 實(shí)現(xiàn)了在 AR 模型中罕見(jiàn)的高精度時(shí)長(zhǎng)控制,使其既能保持逐幀生成帶來(lái)的細(xì)膩表達(dá),又能滿足視頻配音、音畫同步等對(duì)時(shí)長(zhǎng)嚴(yán)格敏感的場(chǎng)景需求。
![]()
2、多模態(tài)的情緒控制
IndexTTS2 對(duì)情感表達(dá)和說(shuō)話人身份進(jìn)行了有效解耦。模型不僅支持從單一參考音頻中復(fù)刻音色與情感,還支持分別指定獨(dú)立的音色參考和情感參考。這意味著用戶可以用一個(gè)人的音色,說(shuō)出另一個(gè)人的情感,極大地提升了控制的靈活性。
為了降低使用門檻,模型集成了兩種情感控制方式。除了通過(guò)音頻參考進(jìn)行情感遷移,還引入了基于自然語(yǔ)言描述的情感軟指令機(jī)制。通過(guò)微調(diào)大型語(yǔ)言模型(LLM),用戶可以使用文本(如自然語(yǔ)言描述、場(chǎng)景描述)來(lái)精確引導(dǎo)生成語(yǔ)音的情緒色彩。
3、S2M 模塊
為了提升在高強(qiáng)度情感(如哭腔、怒吼)下的語(yǔ)音清晰度,模型引入了 GPT 式潛在表征,并采用基于流匹配(Flow Matching)的 S2M 模塊,顯著增強(qiáng)了語(yǔ)音生成的魯棒性和梅爾頻譜圖的重建質(zhì)量。
![]()
研究結(jié)果
1、時(shí)長(zhǎng)控制的準(zhǔn)確性
IndexTTS2 在時(shí)長(zhǎng)控制方面展現(xiàn)了極高的精確度。在對(duì)原始語(yǔ)音時(shí)長(zhǎng)進(jìn)行 0.75 倍至 1.25 倍的變速測(cè)試中,生成語(yǔ)音的 Token 數(shù)量誤差率幾乎不超過(guò) 0.03%,在多數(shù)情況下低于 0.02%,證明其時(shí)長(zhǎng)控制能力精準(zhǔn)可靠。
![]()
Table 1:不同設(shè)置下對(duì)持續(xù)時(shí)長(zhǎng)控制的 token 數(shù)錯(cuò)誤率
2、情感表現(xiàn)力
在情感表現(xiàn)力測(cè)試中,IndexTTS2 顯著優(yōu)于其他 SOTA 模型。其情感相似度(ES)高達(dá) 0.887,情感 MOS(EMOS)評(píng)分達(dá)到 4.22,合成的語(yǔ)音情緒飽滿、渲染自然,同時(shí)保持了極低的詞錯(cuò)誤率(WER, 1.883%),實(shí)現(xiàn)了表現(xiàn)力與清晰度的完美結(jié)合。
![]()
Table 2:在情感測(cè)試集上的結(jié)果
3、零樣本語(yǔ)音合成能力
在多個(gè)公開基準(zhǔn)測(cè)試集(如 LibriSpeech, SeedTTS)上,IndexTTS2 在客觀指標(biāo)(詞錯(cuò)誤率 WER、說(shuō)話人相似度 SS)和主觀 MOS 評(píng)分(音色、韻律、質(zhì)量)上均達(dá)到或超越了當(dāng)前最先進(jìn)的開源模型,包括 MaskGCT, F5-TTS, CosyVoice2 等,展現(xiàn)了其強(qiáng)大的基礎(chǔ)合成能力和魯棒性。
![]()
Table 3:在公開測(cè)試集上的結(jié)果
4、消融實(shí)驗(yàn)驗(yàn)證
實(shí)驗(yàn)證明,模型中的 GPT 潛在特征對(duì)于保證語(yǔ)音清晰度和發(fā)音準(zhǔn)確性至關(guān)重要;而基于流匹配的 S2M 模塊相比于傳統(tǒng)的離散聲學(xué) Token 方案,極大地提升了合成語(yǔ)音的保真度和自然度。
該模型憑借高質(zhì)量的情感還原與精準(zhǔn)的時(shí)長(zhǎng)控制,廣泛提升了 AI 配音、視頻翻譯、有聲讀物、動(dòng)態(tài)漫畫、語(yǔ)音對(duì)話等系列下游場(chǎng)景的可用性,尤其值得關(guān)注的是,IndexTTS-2.0 為 B 站優(yōu)質(zhì)內(nèi)容的出海提供了關(guān)鍵技術(shù)支持,在充分保留原聲風(fēng)格與情感特質(zhì)的基礎(chǔ)上,讓海外用戶享受更加自然、沉浸的聽(tīng)覺(jué)感受。這一技術(shù)突破不僅極大降低了高質(zhì)量?jī)?nèi)容跨語(yǔ)言傳播的門檻,也為 AIGC 技術(shù)在全球范圍內(nèi)的實(shí)際應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ),堪稱零樣本 TTS 技術(shù)邁向?qū)嵱没A段的重要里程碑。
總結(jié)
IndexTTS2 的提出標(biāo)志著零樣本 TTS 進(jìn)入「情感可控 + 時(shí)長(zhǎng)精確」的雙維度時(shí)代。它不僅大幅提升了 AI 配音、視頻翻譯等多種下游場(chǎng)景的可用性,同時(shí),也為未來(lái)語(yǔ)音合成技術(shù)的發(fā)展指明了重要方向:如何在 AR 框架下實(shí)現(xiàn)對(duì)情感、語(yǔ)調(diào)等更復(fù)雜語(yǔ)音特征的細(xì)粒度控制,并持續(xù)優(yōu)化模型性能,為更廣泛的交互式應(yīng)用提供支持。
研究團(tuán)隊(duì)現(xiàn)已開放模型權(quán)重與代碼,這意味著更多開發(fā)者和研究人員能夠基于 IndexTTS2 構(gòu)建個(gè)性化、沉浸式的語(yǔ)音交互應(yīng)用。
作者介紹:
本論文主要作者來(lái)自嗶哩嗶哩 Index 語(yǔ)音團(tuán)隊(duì)(Bilibili IndexTTS),Index語(yǔ)音團(tuán)隊(duì)是一支專注于音頻技術(shù)創(chuàng)新的研究團(tuán)隊(duì),致力于音頻生成、語(yǔ)音合成與音樂(lè)技術(shù)的前沿探索,重點(diǎn)研究高保真、自然真實(shí)、可控性強(qiáng)的語(yǔ)音生成模型。團(tuán)隊(duì)推出的全新一代 zero-shot TTS 自回歸大模型 IndexTTS2,具備出色的情感表現(xiàn)力,支持音色與情感的自由組合,并創(chuàng)新性地設(shè)計(jì)了“時(shí)長(zhǎng)編碼”,實(shí)現(xiàn)了模型層面的精準(zhǔn)時(shí)長(zhǎng)控制。團(tuán)隊(duì)通過(guò)深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷突破,持續(xù)為學(xué)術(shù)界與工業(yè)界提供高質(zhì)量的語(yǔ)音合成技術(shù)支持與創(chuàng)新方案,助力創(chuàng)作者用聲音打破表達(dá)邊界。
推薦一個(gè)正在學(xué)習(xí)的課程-視頻+直播
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.