網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

B站用AI整的這個(gè)活兒太魔性了，已開源！

2025-09-19 19:39:31　來(lái)源: 機(jī)器學(xué)習(xí)與Python社區(qū)

北京舉報(bào)

分享至

最近在 B 站上，你是否也刷到過(guò)一些 “魔性” 又神奇的 AI 視頻？比如英文版《甄嬛傳》、坦克飛天、曹操大戰(zhàn)孫悟空…… 這些作品不僅完美復(fù)現(xiàn)了原角色的音色，連情感和韻律都做到了高度還原！更讓人驚訝的是，它們居然全都是靠 AI 生成的！

英文版

甄嬛傳他來(lái)

讓坦克飛

B 站開源 index-tts-2.0 長(zhǎng)視頻測(cè)試，效果真的強(qiáng)，曹操大戰(zhàn)孫悟空

如果讓 AI 開中文蘋果發(fā)布會(huì)，indextts2 效果展示

據(jù)悉，這些視頻都是運(yùn)用了嗶哩嗶哩 Index 團(tuán)隊(duì)最新開源的文本轉(zhuǎn)語(yǔ)音模型 IndexTTS-2.0, 這一模型從 demo 發(fā)布起，就在海內(nèi)外社區(qū)引發(fā)了不少的關(guān)注。目前該工作在 Github 已超過(guò) 10k stars 。

論文標(biāo)題：IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech
論文鏈接：https://arxiv.org/abs/2506.21619
github 鏈接：https://github.com/index-tts/index-tts
魔搭體驗(yàn)頁(yè)：https://modelscope.cn/studios/IndexTeam/IndexTTS-2-Demo
HuggingFace 體驗(yàn)頁(yè)：https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo
官宣視頻：https://www.bilibili.com/video/BV136a9zqEk5/

近年來(lái)，大規(guī)模文本轉(zhuǎn)語(yǔ)音（Text-to-Speech, TTS）模型在自然度和表現(xiàn)力上取得了顯著進(jìn)展，但如何讓語(yǔ)音「在韻律自然的同時(shí)，又能嚴(yán)格對(duì)齊時(shí)長(zhǎng)」仍是懸而未決的難題。傳統(tǒng)自回歸（Autoregressive, AR）模型雖然在韻律自然性和風(fēng)格遷移上占優(yōu)，卻難以做到精準(zhǔn)時(shí)長(zhǎng)控制；而非自回歸（Non-Autoregressive, NAR）方法雖能輕松操縱時(shí)長(zhǎng)，卻往往犧牲了語(yǔ)音的自然感和情緒表現(xiàn)力。如何在保留 AR 模型優(yōu)勢(shì)的同時(shí)，突破其核心限制，成為了前沿挑戰(zhàn)。

來(lái)自嗶哩嗶哩的 IndexTTS 團(tuán)隊(duì)創(chuàng)新性地提出了一種通用于 AR 系統(tǒng)的 “時(shí)間編碼” 機(jī)制，首次解決了傳統(tǒng) AR 模型難以精確控制語(yǔ)音時(shí)長(zhǎng)的問(wèn)題。這一新穎的架構(gòu)設(shè)計(jì)不僅解決了時(shí)長(zhǎng)控制問(wèn)題，更引入了音色與情感的解耦建模，實(shí)現(xiàn)了前所未有的情感表現(xiàn)力和靈活控制，在多個(gè)指標(biāo)上全面超越現(xiàn)有 SOTA 系統(tǒng)。

研究方法

IndexTTS2 由三個(gè)核心模塊組成：Text-to-Semantic（T2S）、Semantic-to-Mel（S2M）以及 BigVGANv2 聲碼器。首先，T2S 模塊基于輸入的源文本、風(fēng)格提示、音色提示以及一個(gè)可選的目標(biāo)語(yǔ)音 token 數(shù)，生成對(duì)應(yīng)的語(yǔ)義 token 序列。然后，S2M 模塊以語(yǔ)義 token 和音色提示作為輸入，進(jìn)一步預(yù)測(cè)出梅爾頻譜圖。最后，BigVGANv2 聲碼器將梅爾頻譜圖轉(zhuǎn)換為高質(zhì)量的語(yǔ)音波形，完成端到端的語(yǔ)音合成過(guò)程。

IndexTTS2 可以在零樣本條件下生成自然流暢的多情感、跨語(yǔ)言語(yǔ)音。它還支持在自回歸框架下精確控制語(yǔ)音時(shí)長(zhǎng)，讓合成既可控又不失自然。同時(shí)具備工業(yè)級(jí)性能，既適合研究探索，也能直接應(yīng)用到實(shí)際場(chǎng)景中。

1、基于 AR 架構(gòu)的時(shí)長(zhǎng)控制

在 IndexTTS2 中，針對(duì)自回歸 (AR) TTS 難以精確控制語(yǔ)音時(shí)長(zhǎng)的問(wèn)題，提出了基于 token 數(shù)量約束的解決方案。核心思路是：在生成時(shí)可以指定所需的語(yǔ)義 token 數(shù)，模型通過(guò)一個(gè)專門的時(shí)長(zhǎng) embedding 將這個(gè)信息注入到 Text-to-Semantic 模塊，通過(guò)對(duì)合成 token 的數(shù)量強(qiáng)約束來(lái)實(shí)現(xiàn)生成語(yǔ)音時(shí)長(zhǎng)控制。訓(xùn)練階段隨機(jī)引入不同比例的信號(hào)層時(shí)長(zhǎng)縮放 (如 0.75×、1.25×) 任務(wù)，使模型可以學(xué)會(huì)在各種長(zhǎng)度要求下仍然保持語(yǔ)義連貫和情感自然。

實(shí)驗(yàn)表明，這種方法在不同語(yǔ)言（中 / 英）上的 token-number error rate 非常低，即模型幾乎能嚴(yán)格按照指定的 token 數(shù)量生成語(yǔ)音，同時(shí)在合成質(zhì)量、情感保真度和自然度上保持較好表現(xiàn)。換句話說(shuō)，IndexTTS2 實(shí)現(xiàn)了在 AR 模型中罕見(jiàn)的高精度時(shí)長(zhǎng)控制，使其既能保持逐幀生成帶來(lái)的細(xì)膩表達(dá)，又能滿足視頻配音、音畫同步等對(duì)時(shí)長(zhǎng)嚴(yán)格敏感的場(chǎng)景需求。

2、多模態(tài)的情緒控制

IndexTTS2 對(duì)情感表達(dá)和說(shuō)話人身份進(jìn)行了有效解耦。模型不僅支持從單一參考音頻中復(fù)刻音色與情感，還支持分別指定獨(dú)立的音色參考和情感參考。這意味著用戶可以用一個(gè)人的音色，說(shuō)出另一個(gè)人的情感，極大地提升了控制的靈活性。

為了降低使用門檻，模型集成了兩種情感控制方式。除了通過(guò)音頻參考進(jìn)行情感遷移，還引入了基于自然語(yǔ)言描述的情感軟指令機(jī)制。通過(guò)微調(diào)大型語(yǔ)言模型（LLM），用戶可以使用文本（如自然語(yǔ)言描述、場(chǎng)景描述）來(lái)精確引導(dǎo)生成語(yǔ)音的情緒色彩。

3、S2M 模塊

為了提升在高強(qiáng)度情感（如哭腔、怒吼）下的語(yǔ)音清晰度，模型引入了 GPT 式潛在表征，并采用基于流匹配（Flow Matching）的 S2M 模塊，顯著增強(qiáng)了語(yǔ)音生成的魯棒性和梅爾頻譜圖的重建質(zhì)量。

研究結(jié)果

1、時(shí)長(zhǎng)控制的準(zhǔn)確性

IndexTTS2 在時(shí)長(zhǎng)控制方面展現(xiàn)了極高的精確度。在對(duì)原始語(yǔ)音時(shí)長(zhǎng)進(jìn)行 0.75 倍至 1.25 倍的變速測(cè)試中，生成語(yǔ)音的 Token 數(shù)量誤差率幾乎不超過(guò) 0.03%，在多數(shù)情況下低于 0.02%，證明其時(shí)長(zhǎng)控制能力精準(zhǔn)可靠。

Table 1：不同設(shè)置下對(duì)持續(xù)時(shí)長(zhǎng)控制的 token 數(shù)錯(cuò)誤率

2、情感表現(xiàn)力

在情感表現(xiàn)力測(cè)試中，IndexTTS2 顯著優(yōu)于其他 SOTA 模型。其情感相似度（ES）高達(dá) 0.887，情感 MOS（EMOS）評(píng)分達(dá)到 4.22，合成的語(yǔ)音情緒飽滿、渲染自然，同時(shí)保持了極低的詞錯(cuò)誤率（WER, 1.883%），實(shí)現(xiàn)了表現(xiàn)力與清晰度的完美結(jié)合。

Table 2：在情感測(cè)試集上的結(jié)果

3、零樣本語(yǔ)音合成能力

在多個(gè)公開基準(zhǔn)測(cè)試集（如 LibriSpeech, SeedTTS）上，IndexTTS2 在客觀指標(biāo)（詞錯(cuò)誤率 WER、說(shuō)話人相似度 SS）和主觀 MOS 評(píng)分（音色、韻律、質(zhì)量）上均達(dá)到或超越了當(dāng)前最先進(jìn)的開源模型，包括 MaskGCT, F5-TTS, CosyVoice2 等，展現(xiàn)了其強(qiáng)大的基礎(chǔ)合成能力和魯棒性。

Table 3：在公開測(cè)試集上的結(jié)果

4、消融實(shí)驗(yàn)驗(yàn)證

實(shí)驗(yàn)證明，模型中的 GPT 潛在特征對(duì)于保證語(yǔ)音清晰度和發(fā)音準(zhǔn)確性至關(guān)重要；而基于流匹配的 S2M 模塊相比于傳統(tǒng)的離散聲學(xué) Token 方案，極大地提升了合成語(yǔ)音的保真度和自然度。

該模型憑借高質(zhì)量的情感還原與精準(zhǔn)的時(shí)長(zhǎng)控制，廣泛提升了 AI 配音、視頻翻譯、有聲讀物、動(dòng)態(tài)漫畫、語(yǔ)音對(duì)話等系列下游場(chǎng)景的可用性，尤其值得關(guān)注的是，IndexTTS-2.0 為 B 站優(yōu)質(zhì)內(nèi)容的出海提供了關(guān)鍵技術(shù)支持，在充分保留原聲風(fēng)格與情感特質(zhì)的基礎(chǔ)上，讓海外用戶享受更加自然、沉浸的聽(tīng)覺(jué)感受。這一技術(shù)突破不僅極大降低了高質(zhì)量?jī)?nèi)容跨語(yǔ)言傳播的門檻，也為 AIGC 技術(shù)在全球范圍內(nèi)的實(shí)際應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)，堪稱零樣本 TTS 技術(shù)邁向?qū)嵱没A段的重要里程碑。

總結(jié)

IndexTTS2 的提出標(biāo)志著零樣本 TTS 進(jìn)入「情感可控 + 時(shí)長(zhǎng)精確」的雙維度時(shí)代。它不僅大幅提升了 AI 配音、視頻翻譯等多種下游場(chǎng)景的可用性，同時(shí)，也為未來(lái)語(yǔ)音合成技術(shù)的發(fā)展指明了重要方向：如何在 AR 框架下實(shí)現(xiàn)對(duì)情感、語(yǔ)調(diào)等更復(fù)雜語(yǔ)音特征的細(xì)粒度控制，并持續(xù)優(yōu)化模型性能，為更廣泛的交互式應(yīng)用提供支持。

研究團(tuán)隊(duì)現(xiàn)已開放模型權(quán)重與代碼，這意味著更多開發(fā)者和研究人員能夠基于 IndexTTS2 構(gòu)建個(gè)性化、沉浸式的語(yǔ)音交互應(yīng)用。

作者介紹：

本論文主要作者來(lái)自嗶哩嗶哩 Index 語(yǔ)音團(tuán)隊(duì)（Bilibili IndexTTS），Index語(yǔ)音團(tuán)隊(duì)是一支專注于音頻技術(shù)創(chuàng)新的研究團(tuán)隊(duì)，致力于音頻生成、語(yǔ)音合成與音樂(lè)技術(shù)的前沿探索，重點(diǎn)研究高保真、自然真實(shí)、可控性強(qiáng)的語(yǔ)音生成模型。團(tuán)隊(duì)推出的全新一代 zero-shot TTS 自回歸大模型 IndexTTS2，具備出色的情感表現(xiàn)力，支持音色與情感的自由組合，并創(chuàng)新性地設(shè)計(jì)了“時(shí)長(zhǎng)編碼”，實(shí)現(xiàn)了模型層面的精準(zhǔn)時(shí)長(zhǎng)控制。團(tuán)隊(duì)通過(guò)深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷突破，持續(xù)為學(xué)術(shù)界與工業(yè)界提供高質(zhì)量的語(yǔ)音合成技術(shù)支持與創(chuàng)新方案，助力創(chuàng)作者用聲音打破表達(dá)邊界。

推薦一個(gè)正在學(xué)習(xí)的課程-視頻+直播

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.