<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      B站用AI整的這個(gè)活兒太魔性了,已開源!

      0
      分享至

      最近在 B 站上,你是否也刷到過(guò)一些 “魔性” 又神奇的 AI 視頻?比如英文版《甄嬛傳》、坦克飛天、曹操大戰(zhàn)孫悟空…… 這些作品不僅完美復(fù)現(xiàn)了原角色的音色,連情感和韻律都做到了高度還原!更讓人驚訝的是,它們居然全都是靠 AI 生成的!


      英文版
      甄嬛傳他來(lái)


      讓坦克飛


      B 站開源 index-tts-2.0 長(zhǎng)視頻測(cè)試,效果真的強(qiáng),曹操大戰(zhàn)孫悟空


      如果讓 AI 開中文蘋果發(fā)布會(huì),indextts2 效果展示

      據(jù)悉,這些視頻都是運(yùn)用了嗶哩嗶哩 Index 團(tuán)隊(duì)最新開源的文本轉(zhuǎn)語(yǔ)音模型 IndexTTS-2.0, 這一模型從 demo 發(fā)布起,就在海內(nèi)外社區(qū)引發(fā)了不少的關(guān)注。目前該工作在 Github 已超過(guò) 10k stars 。




      • 論文標(biāo)題:IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech

      • 論文鏈接:https://arxiv.org/abs/2506.21619

      • github 鏈接:https://github.com/index-tts/index-tts

      • 魔搭體驗(yàn)頁(yè):https://modelscope.cn/studios/IndexTeam/IndexTTS-2-Demo

      • HuggingFace 體驗(yàn)頁(yè):https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo

      • 官宣視頻:https://www.bilibili.com/video/BV136a9zqEk5/

      近年來(lái),大規(guī)模文本轉(zhuǎn)語(yǔ)音(Text-to-Speech, TTS)模型在自然度和表現(xiàn)力上取得了顯著進(jìn)展,但如何讓語(yǔ)音「在韻律自然的同時(shí),又能嚴(yán)格對(duì)齊時(shí)長(zhǎng)」仍是懸而未決的難題。傳統(tǒng)自回歸(Autoregressive, AR)模型雖然在韻律自然性和風(fēng)格遷移上占優(yōu),卻難以做到精準(zhǔn)時(shí)長(zhǎng)控制;而非自回歸(Non-Autoregressive, NAR)方法雖能輕松操縱時(shí)長(zhǎng),卻往往犧牲了語(yǔ)音的自然感和情緒表現(xiàn)力。如何在保留 AR 模型優(yōu)勢(shì)的同時(shí),突破其核心限制,成為了前沿挑戰(zhàn)。

      來(lái)自嗶哩嗶哩的 IndexTTS 團(tuán)隊(duì)創(chuàng)新性地提出了一種通用于 AR 系統(tǒng)的 “時(shí)間編碼” 機(jī)制次解決了傳統(tǒng) AR 模型難以精確控制語(yǔ)音時(shí)長(zhǎng)的問(wèn)題。這一新穎的架構(gòu)設(shè)計(jì)不僅解決了時(shí)長(zhǎng)控制問(wèn)題,更引入了音色與情感的解耦建模,實(shí)現(xiàn)了前所未有的情感表現(xiàn)力和靈活控制,在多個(gè)指標(biāo)上全面超越現(xiàn)有 SOTA 系統(tǒng)。

      研究方法

      IndexTTS2 由三個(gè)核心模塊組成:Text-to-Semantic(T2S) 、Semantic-to-Mel(S2M) 以及 BigVGANv2 聲碼器。首先,T2S 模塊基于輸入的源文本、風(fēng)格提示、音色提示以及一個(gè)可選的目標(biāo)語(yǔ)音 token 數(shù),生成對(duì)應(yīng)的語(yǔ)義 token 序列。然后,S2M 模塊以語(yǔ)義 token 和音色提示作為輸入,進(jìn)一步預(yù)測(cè)出梅爾頻譜圖。最后,BigVGANv2 聲碼器將梅爾頻譜圖轉(zhuǎn)換為高質(zhì)量的語(yǔ)音波形,完成端到端的語(yǔ)音合成過(guò)程。

      IndexTTS2 可以在零樣本條件下生成自然流暢的多情感、跨語(yǔ)言語(yǔ)音。它還支持在自回歸框架下精確控制語(yǔ)音時(shí)長(zhǎng),讓合成既可控又不失自然。同時(shí)具備工業(yè)級(jí)性能,既適合研究探索,也能直接應(yīng)用到實(shí)際場(chǎng)景中。


      1、基于 AR 架構(gòu)的時(shí)長(zhǎng)控制

      在 IndexTTS2 中,針對(duì)自回歸 (AR) TTS 難以精確控制語(yǔ)音時(shí)長(zhǎng)的問(wèn)題,提出了基于 token 數(shù)量約束 的解決方案。核心思路是:在生成時(shí)可以指定所需的語(yǔ)義 token 數(shù),模型通過(guò)一個(gè)專門的時(shí)長(zhǎng) embedding 將這個(gè)信息注入到 Text-to-Semantic 模塊,通過(guò)對(duì)合成 token 的數(shù)量強(qiáng)約束來(lái)實(shí)現(xiàn)生成語(yǔ)音時(shí)長(zhǎng)控制。訓(xùn)練階段隨機(jī)引入不同比例的信號(hào)層時(shí)長(zhǎng)縮放 (如 0.75×、1.25×) 任務(wù),使模型可以學(xué)會(huì)在各種長(zhǎng)度要求下仍然保持語(yǔ)義連貫和情感自然。

      實(shí)驗(yàn)表明,這種方法在不同語(yǔ)言(中 / 英)上的 token-number error rate 非常低,即模型幾乎能嚴(yán)格按照指定的 token 數(shù)量生成語(yǔ)音,同時(shí)在合成質(zhì)量、情感保真度和自然度上保持較好表現(xiàn)。換句話說(shuō),IndexTTS2 實(shí)現(xiàn)了在 AR 模型中罕見(jiàn)的高精度時(shí)長(zhǎng)控制,使其既能保持逐幀生成帶來(lái)的細(xì)膩表達(dá),又能滿足視頻配音、音畫同步等對(duì)時(shí)長(zhǎng)嚴(yán)格敏感的場(chǎng)景需求。


      2、多模態(tài)的情緒控制

      IndexTTS2 對(duì)情感表達(dá)和說(shuō)話人身份進(jìn)行了有效解耦。模型不僅支持從單一參考音頻中復(fù)刻音色與情感,還支持分別指定獨(dú)立的音色參考和情感參考。這意味著用戶可以用一個(gè)人的音色,說(shuō)出另一個(gè)人的情感,極大地提升了控制的靈活性。

      為了降低使用門檻,模型集成了兩種情感控制方式。除了通過(guò)音頻參考進(jìn)行情感遷移,還引入了基于自然語(yǔ)言描述的情感軟指令機(jī)制。通過(guò)微調(diào)大型語(yǔ)言模型(LLM),用戶可以使用文本(如自然語(yǔ)言描述、場(chǎng)景描述)來(lái)精確引導(dǎo)生成語(yǔ)音的情緒色彩。

      3、S2M 模塊

      為了提升在高強(qiáng)度情感(如哭腔、怒吼)下的語(yǔ)音清晰度,模型引入了 GPT 式潛在表征,并采用基于流匹配(Flow Matching)的 S2M 模塊,顯著增強(qiáng)了語(yǔ)音生成的魯棒性和梅爾頻譜圖的重建質(zhì)量。


      研究結(jié)果

      1、時(shí)長(zhǎng)控制的準(zhǔn)確性

      IndexTTS2 在時(shí)長(zhǎng)控制方面展現(xiàn)了極高的精確度。在對(duì)原始語(yǔ)音時(shí)長(zhǎng)進(jìn)行 0.75 倍至 1.25 倍的變速測(cè)試中,生成語(yǔ)音的 Token 數(shù)量誤差率幾乎不超過(guò) 0.03%,在多數(shù)情況下低于 0.02%,證明其時(shí)長(zhǎng)控制能力精準(zhǔn)可靠。



      Table 1:不同設(shè)置下對(duì)持續(xù)時(shí)長(zhǎng)控制的 token 數(shù)錯(cuò)誤率

      2、情感表現(xiàn)力

      在情感表現(xiàn)力測(cè)試中,IndexTTS2 顯著優(yōu)于其他 SOTA 模型。其情感相似度(ES)高達(dá) 0.887,情感 MOS(EMOS)評(píng)分達(dá)到 4.22,合成的語(yǔ)音情緒飽滿、渲染自然,同時(shí)保持了極低的詞錯(cuò)誤率(WER, 1.883%),實(shí)現(xiàn)了表現(xiàn)力與清晰度的完美結(jié)合。



      Table 2:在情感測(cè)試集上的結(jié)果

      3、零樣本語(yǔ)音合成能力

      在多個(gè)公開基準(zhǔn)測(cè)試集(如 LibriSpeech, SeedTTS)上,IndexTTS2 在客觀指標(biāo)(詞錯(cuò)誤率 WER、說(shuō)話人相似度 SS)和主觀 MOS 評(píng)分(音色、韻律、質(zhì)量)上均達(dá)到或超越了當(dāng)前最先進(jìn)的開源模型,包括 MaskGCT, F5-TTS, CosyVoice2 等,展現(xiàn)了其強(qiáng)大的基礎(chǔ)合成能力和魯棒性。



      Table 3:在公開測(cè)試集上的結(jié)果

      4、消融實(shí)驗(yàn)驗(yàn)證

      實(shí)驗(yàn)證明,模型中的 GPT 潛在特征對(duì)于保證語(yǔ)音清晰度和發(fā)音準(zhǔn)確性至關(guān)重要;而基于流匹配的 S2M 模塊相比于傳統(tǒng)的離散聲學(xué) Token 方案,極大地提升了合成語(yǔ)音的保真度和自然度。

      該模型憑借高質(zhì)量的情感還原與精準(zhǔn)的時(shí)長(zhǎng)控制,廣泛提升了 AI 配音、視頻翻譯、有聲讀物、動(dòng)態(tài)漫畫、語(yǔ)音對(duì)話等系列下游場(chǎng)景的可用性,尤其值得關(guān)注的是,IndexTTS-2.0 為 B 站優(yōu)質(zhì)內(nèi)容的出海提供了關(guān)鍵技術(shù)支持,在充分保留原聲風(fēng)格與情感特質(zhì)的基礎(chǔ)上,讓海外用戶享受更加自然、沉浸的聽(tīng)覺(jué)感受。這一技術(shù)突破不僅極大降低了高質(zhì)量?jī)?nèi)容跨語(yǔ)言傳播的門檻,也為 AIGC 技術(shù)在全球范圍內(nèi)的實(shí)際應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ),堪稱零樣本 TTS 技術(shù)邁向?qū)嵱没A段的重要里程碑。

      總結(jié)

      IndexTTS2 的提出標(biāo)志著零樣本 TTS 進(jìn)入「情感可控 + 時(shí)長(zhǎng)精確」的雙維度時(shí)代。它不僅大幅提升了 AI 配音、視頻翻譯等多種下游場(chǎng)景的可用性,同時(shí),也為未來(lái)語(yǔ)音合成技術(shù)的發(fā)展指明了重要方向:如何在 AR 框架下實(shí)現(xiàn)對(duì)情感、語(yǔ)調(diào)等更復(fù)雜語(yǔ)音特征的細(xì)粒度控制,并持續(xù)優(yōu)化模型性能,為更廣泛的交互式應(yīng)用提供支持。

      研究團(tuán)隊(duì)現(xiàn)已開放模型權(quán)重與代碼,這意味著更多開發(fā)者和研究人員能夠基于 IndexTTS2 構(gòu)建個(gè)性化、沉浸式的語(yǔ)音交互應(yīng)用。

      作者介紹:

      本論文主要作者來(lái)自嗶哩嗶哩 Index 語(yǔ)音團(tuán)隊(duì)(Bilibili IndexTTS),Index語(yǔ)音團(tuán)隊(duì)是一支專注于音頻技術(shù)創(chuàng)新的研究團(tuán)隊(duì),致力于音頻生成、語(yǔ)音合成與音樂(lè)技術(shù)的前沿探索,重點(diǎn)研究高保真、自然真實(shí)、可控性強(qiáng)的語(yǔ)音生成模型。團(tuán)隊(duì)推出的全新一代 zero-shot TTS 自回歸大模型 IndexTTS2,具備出色的情感表現(xiàn)力,支持音色與情感的自由組合,并創(chuàng)新性地設(shè)計(jì)了“時(shí)長(zhǎng)編碼”,實(shí)現(xiàn)了模型層面的精準(zhǔn)時(shí)長(zhǎng)控制。團(tuán)隊(duì)通過(guò)深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷突破,持續(xù)為學(xué)術(shù)界與工業(yè)界提供高質(zhì)量的語(yǔ)音合成技術(shù)支持與創(chuàng)新方案,助力創(chuàng)作者用聲音打破表達(dá)邊界。

      推薦一個(gè)正在學(xué)習(xí)的課程-視頻+直播


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      斯基拉:米蘭不考慮用里奇換加蒂,提供了德溫特或圣地亞哥

      斯基拉:米蘭不考慮用里奇換加蒂,提供了德溫特或圣地亞哥

      懂球帝
      2025-12-25 00:33:07
      壽命與大便次數(shù)有關(guān)?研究發(fā)現(xiàn):壽命長(zhǎng)的人,每天排便在這個(gè)次數(shù)

      壽命與大便次數(shù)有關(guān)?研究發(fā)現(xiàn):壽命長(zhǎng)的人,每天排便在這個(gè)次數(shù)

      DrX說(shuō)
      2025-10-24 14:15:19
      吳敬中死前對(duì)余則成說(shuō):"在天津找穿藍(lán)旗袍的女人,她知道你身份"

      吳敬中死前對(duì)余則成說(shuō):"在天津找穿藍(lán)旗袍的女人,她知道你身份"

      飯小妹說(shuō)歷史
      2025-12-16 16:38:39
      最新金球獎(jiǎng)排名公布!亞馬爾失寵,皇馬集體下滑,第一無(wú)懸念

      最新金球獎(jiǎng)排名公布!亞馬爾失寵,皇馬集體下滑,第一無(wú)懸念

      阿泰希特
      2025-12-24 09:52:10
      中國(guó)男子在剛果金遇到奇怪動(dòng)物,無(wú)頭、四足、拖著2根須子?

      中國(guó)男子在剛果金遇到奇怪動(dòng)物,無(wú)頭、四足、拖著2根須子?

      貍貓之一的動(dòng)物圈
      2025-12-24 09:43:35
      新希望:目前希望轉(zhuǎn)債尚有余額約9.49億,公司已經(jīng)準(zhǔn)備好到期兌付相關(guān)工作,不存在壓力

      新希望:目前希望轉(zhuǎn)債尚有余額約9.49億,公司已經(jīng)準(zhǔn)備好到期兌付相關(guān)工作,不存在壓力

      每日經(jīng)濟(jì)新聞
      2025-12-24 18:25:24
      肖央《用武之地》票房?jī)H388萬(wàn),鄧超《阿凡達(dá)3》蟬聯(lián)日冠

      肖央《用武之地》票房?jī)H388萬(wàn),鄧超《阿凡達(dá)3》蟬聯(lián)日冠

      千信齊飛
      2025-12-25 01:30:55
      一山不容二虎?許昕自曝與隊(duì)友不和,不是張繼科,而是全滿貫的他

      一山不容二虎?許昕自曝與隊(duì)友不和,不是張繼科,而是全滿貫的他

      以茶帶書
      2025-12-23 19:22:37
      曼城轉(zhuǎn)會(huì)操作遭痛批!記者直言這就是“瞎折騰”!

      曼城轉(zhuǎn)會(huì)操作遭痛批!記者直言這就是“瞎折騰”!

      奶蓋熊本熊
      2025-12-25 03:00:29
      麥卡前女友:被麥卡甩掉后一個(gè)月,他和我朋友好了還帶著我的狗

      麥卡前女友:被麥卡甩掉后一個(gè)月,他和我朋友好了還帶著我的狗

      懂球帝
      2025-12-24 11:25:02
      這次莎莎受傷,
大頭真的把那句話做到了

      這次莎莎受傷, 大頭真的把那句話做到了

      小光侃娛樂(lè)
      2025-12-24 13:10:03
      戰(zhàn)友聚會(huì)AA制每人交3500元,因兒子高燒39度會(huì)沒(méi)去成,次日民警上門

      戰(zhàn)友聚會(huì)AA制每人交3500元,因兒子高燒39度會(huì)沒(méi)去成,次日民警上門

      罪案洞察者
      2025-12-16 14:42:51
      大翻盤!江蘇女排3-2天津贏在哪?吳夢(mèng)潔勢(shì)不可擋,唐欣替補(bǔ)奇兵

      大翻盤!江蘇女排3-2天津贏在哪?吳夢(mèng)潔勢(shì)不可擋,唐欣替補(bǔ)奇兵

      騎馬寺的少年
      2025-12-24 21:44:51
      殘陣對(duì)殘陣,曼晚:曼聯(lián)vs紐卡的比賽可能有多達(dá)15名球員缺席

      殘陣對(duì)殘陣,曼晚:曼聯(lián)vs紐卡的比賽可能有多達(dá)15名球員缺席

      懂球帝
      2025-12-24 17:34:07
      茼蒿立大功!醫(yī)生調(diào)查發(fā)現(xiàn):茼蒿對(duì)這5種疾病有好處,建議常吃

      茼蒿立大功!醫(yī)生調(diào)查發(fā)現(xiàn):茼蒿對(duì)這5種疾病有好處,建議常吃

      阿纂看事
      2025-10-13 15:36:03
      青島一村支書被帶走!

      青島一村支書被帶走!

      君道
      2025-12-24 19:51:41
      南博前院長(zhǎng)徐湖平的別墅火了!是民國(guó)老宅,每平米價(jià)位4萬(wàn)元以上

      南博前院長(zhǎng)徐湖平的別墅火了!是民國(guó)老宅,每平米價(jià)位4萬(wàn)元以上

      火山詩(shī)話
      2025-12-24 05:52:38
      2026年購(gòu)車補(bǔ)貼新政將出 現(xiàn)在買車的人可能虧大了

      2026年購(gòu)車補(bǔ)貼新政將出 現(xiàn)在買車的人可能虧大了

      沙雕小琳琳
      2025-12-24 12:29:11
      網(wǎng)傳“熱力公司人員戴警徽記錄儀入戶測(cè)溫”,公司回應(yīng):為服務(wù)記錄儀

      網(wǎng)傳“熱力公司人員戴警徽記錄儀入戶測(cè)溫”,公司回應(yīng):為服務(wù)記錄儀

      界面新聞
      2025-12-24 08:49:04
      俄羅斯專家預(yù)測(cè):美國(guó)扣押赴華的委內(nèi)瑞拉油輪后,中國(guó)會(huì)采取行動(dòng)

      俄羅斯專家預(yù)測(cè):美國(guó)扣押赴華的委內(nèi)瑞拉油輪后,中國(guó)會(huì)采取行動(dòng)

      惜惜視界
      2025-12-23 22:57:30
      2025-12-25 06:23:00
      機(jī)器學(xué)習(xí)與Python社區(qū) incentive-icons
      機(jī)器學(xué)習(xí)與Python社區(qū)
      機(jī)器學(xué)習(xí)算法與Python
      3233文章數(shù) 11081關(guān)注度
      往期回顧 全部

      科技要聞

      智譜和MiniMax拿出了“血淋淋”的賬本

      頭條要聞

      幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

      頭條要聞

      幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

      體育要聞

      26歲廣西球王,在質(zhì)疑聲中成為本土得分王

      娛樂(lè)要聞

      懷孕增重30斤!闞清子驚傳誕一女夭折?

      財(cái)經(jīng)要聞

      北京進(jìn)一步放松限購(gòu) 滬深是否會(huì)跟進(jìn)?

      汽車要聞

      “運(yùn)動(dòng)版庫(kù)里南”一月份亮相???或命名極氪9S

      態(tài)度原創(chuàng)

      旅游
      藝術(shù)
      數(shù)碼
      公開課
      軍事航空

      旅游要聞

      上海藏2800株水上紅杉!免費(fèi)開放,夕陽(yáng)下美成油畫

      藝術(shù)要聞

      William Whitaker作品精選 | 美國(guó)當(dāng)代畫家

      數(shù)碼要聞

      AMD Zen 6與Intel Nova Lake或?qū)⑸涎?88 MB 3D緩存“大戰(zhàn)”

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      軍事專家:"特朗普級(jí)"戰(zhàn)艦設(shè)計(jì)疑大量借鑒中國(guó)055大驅(qū)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 天堂8中文在线最新版在线| 性动态图无遮挡试看30秒| 最新国产精品亚洲| 一区二区三区人妻无码| 亚洲精品另类| 国产高清在线| 乱人伦??国语| 人人爽人人爽人人片a免费| 韩国三级大全久久网站| 1000部拍拍拍18勿入免费视频下载| 色爱综合网| 湖北省| 精品1卡二卡三卡四卡老狼| 久久天天躁狠狠躁夜夜躁| 亚洲熟妇丰满xxxxx| 国产精品99久久久久久宅男| 水蜜桃av导航| av综合网男人的天堂| 精品人妻无码一区二区三区| 91狼友社| 南阳市| 凤山市| 性欧美高清| FUCK老富婆HD| 国产999| 丰满人妻一区二区三区在线视频53| 神马午夜久久精品人妻| 老司机午夜精品视频资源| 无套内谢孕妇毛片免费看| 亚洲精品国产suv一区| 果冻传媒一区| 后入内射国产一区二区| a级大胆欧美人体大胆666| 欧美人与物videos另类xxxxx| 久久久久香蕉国产线看观看伊| 亚洲最大国产成人综合网站| 人妻少妇白浆| 丰满人妻一区二区三,| 色婷婷成人| 国产九九在线视频| 一本色道久久88综合日韩精品|