![]()
當一段語音不僅需要 “像某個人”、“準確地讀出每個字”, 還需要在不同內容中自然切換說話方式, 在幾十分鐘的敘述中持續穩定, 在對話、角色、實時交互等不同形態下都能直接使用 —— 單一的 TTS 模型,往往已經不夠用了。
就在今天,模思智能及 OpenMOSS 團隊再度上新,發布并開源了MOSS-TTS Family,一套面向高保真、高表現力與復雜場景生成的語音生成模型家族。
你可以用 MOSS-TTS Family 完成這些事情:
- 零樣本克隆說話人的音色與表達風格并精準控制語音時長,用于紀錄片、影視配音或新聞播報;
- 生成具備真實節奏的雙人或多人對話,用于播客、綜藝或解說;
- 通過指令設計帶有情緒與表演狀態的角色聲音;
- 為內容補全環境音與音效;
- 以及在實時 Voice Agent 系統中,以流式方式持續輸出自然語音;
從這些真實、明確的實際需求,我們不難看出,模思推出的 TTS 全家桶,并不是單一能力的堆疊,而是一整套可以直接接入創作流程、產品系統與交互場景的聲音生產工具鏈。
語音生成模型家族:全維度能力覆蓋
MOSS-TTS Family并不是對 “一個更大的 TTS 模型” 的追求。
相反,我們選擇將聲音生產拆解為多個真實存在的創作與應用環節,并為每一個環節提供專門的模型支持,使它們既可以獨立使用,也可以組合成完整的工作流。
整個模型家族包含五個核心成員:
- MOSS-TTS:高保真、高表現力的語音生成基座,多語言、長音頻、精確時長控制;
- MOSS-TTSD:全面更新至 1.0 版本,面向真實對話場景的多說話人語音合成,包括但不限于播客等更多復雜對話場景;
- MOSS-VoiceGenerator:復雜文本指令跟隨、用于音色與角色設計;
- MOSS-SoundEffect:環境音與音效生成模型;
- MOSS-TTS-Realtime:面向實時交互的實時流式 TTS 模型;
它們共同構成了一個覆蓋 “穩定生成、靈活設計、復雜對話、情境補全、實時交互” 的聲音創作生態閉環。
MOSS-TTS:高表現力語音生成基座
MOSS-TTS 是整個 MOSS-TTS Family 的基礎模型,也是所有聲音能力得以成立的前提。
它的核心目標是在真實內容與復雜場景中,穩定地復現一個說話者的聲音特征、表達方式與語言習慣,并穩定地生成長語音片段。
在下面的音頻示例中,我們將從多個維度展示 MOSS-TTS 的能力邊界。
零樣本音色復刻:從 “像聲音” 到 “像這個人說話”
音色克隆并不等同于音色相似。在真實內容中,人們更容易注意到的,往往是語速、韻律、停頓方式、情緒走向與整體說話風格是否一致。MOSS-TTS 的音色克隆能力,正是圍繞這些 “非顯性特征” 展開。
在業界權威測試集 Seed-TTS-eval 上,MOSS-TTS 的語音音色相似度超越了當前所有的開源模型和大多數閉源模型。
中文場景展示
- 央視紀錄片解說高原雪豹
![]()
https://mp.weixin.qq.com/s/Qr4ycteDkopspO-DlD_yOQ?click_id=79
- 百家講壇論王立群老師論時間觀念
![]()
https://mp.weixin.qq.com/s/Qr4ycteDkopspO-DlD_yOQ?click_id=79
英文場景展示
- 鋼鐵俠Tony Stark 大型懟人現場
![]()
https://mp.weixin.qq.com/s/Qr4ycteDkopspO-DlD_yOQ?click_id=79
- Taylor Swift 深情向粉絲吐露心聲
![]()
https://mp.weixin.qq.com/s/Qr4ycteDkopspO-DlD_yOQ?click_id=79
在這些示例中,可以明顯聽到:同一參考音色在不同內容語境下,說話節奏、重音位置與情緒密度都會發生變化,而并非簡單地 “套用一個聲線”。
超長語音生成:不再為分段拼接而苦惱
在長內容語音生成中,一個長期存在且高度工程化的問題是:
上下文長度本身是否足夠、是否可持續、是否可一次性完成生成。
在許多實際應用中,超出常規上下文長度的語音內容,往往需要通過人工分段生成、再進行拼接與后處理的方式完成。這不僅增加了使用成本,也降低了語音質量的一致性。
MOSS-TTS 面向真實生產需求,支持單次上下文內完成超長語音生成,無需對文本進行人為切分,也無需通過多輪調用來拼接音頻結果。
![]()
https://mp.weixin.qq.com/s/Qr4ycteDkopspO-DlD_yOQ?click_id=79
在上述示例中,MOSS-TTS 在一次生成流程中直接能夠得到 43 分鐘的超長音頻,避免了因分段處理帶來的接口復雜度與工程負擔。
這一能力使 MOSS-TTS 能夠更加自然地融入紀錄片、有聲內容與長篇講解等場景,將語音生成從 “需要特殊處理的步驟”,轉變為可直接調用的基礎能力。
語音時長控制:在不犧牲自然度的前提下控制語速
在很多生產場景中,“生成多快” 與 “生成多長” 是明確約束條件,而不僅僅是風格選擇。MOSS-TTS 支持在 Token 級別對生成時長進行控制,從而適應更多創作場景。
多語言語音生成:跨語言的一致性表達
MOSS-TTS 支持多種主流語言的語音生成,并致力于在不同語言中保持一致的發音質量與表達自然度。
支持語言包括但不限于:
- 中文
- 英語
- 法語
- 德語
- 西班牙語
- 日語
- 俄語
- 韓語
- 意大利語
- 任意語言切換
拼音與音素級細粒度發音控制:從準確發音到可控表達
在語音生成中,發音控制不僅僅是為了 “讀對”,更重要的是為創作者和開發者提供可操作、可實驗、可組合的表達空間。
MOSS-TTS 提供拼音與音素級別的細粒度發音控制能力,使用戶能夠直接參與到發音層面的設計與調整中,而不僅僅停留在文本層面,在不改變整體語音自然度的前提下,對局部讀音進行精細干預。通過這一能力,可以實現包括但不限于以下用法:
- 使用純拼音輸入驅動語音生成,而不依賴原始漢字文本
- 例如“你好,我是來自模思智能的模型”,直接輸入:
ni2 hao3,wo3 shi4 lai2 zi4 mo2 si1 zhi4 neng2 de4 mo2 xing2
- 主動修改拼音內容或聲調,用于糾正特定讀音
- 例如“一騎紅塵妃子笑,無人知是荔枝來”,直接調整“騎”這個多音字發音:
一 ji4 紅塵妃子笑,無人知是荔枝來
一 qi2 紅塵妃子笑,無人知是荔枝來
- 通過對拼音與音調的組合調整,探索更具個性化的發音方式
- 例如“你好,請問你來自哪座城市?”,修改后,得到方言或者特殊口音性質的親切的“老鄉話”:
- nin2 hao3,qing4 wen3 nin2 lai2 zi4 na4 zuo3 cheng4 shi3?
MOSS-TTSD-V1.0:面向真實內容的多說話人對話生成
如果說單人 TTS 解決的是 “講述”,那么MOSS-TTSD解決的是 “交流”。
相比于 0.7 版本,1.0 版本的核心能力如下:
- 以雙說話人為核心的自然對話節奏,支持 1–5 人,任意指定人數的語音生成;
- 支持更多對話場景
- 播客、說書、體育解說、電競解說、影視、綜藝、動漫、相聲等
- 支持最長 60 分鐘的長對話生成
- 覆蓋 中文、英語、日語、韓語、西班牙語、葡萄牙語、法語、德語、意大利語、俄語、阿拉伯語 等多種語言
- 管澤元王多多解說IG大戰T1
![]()
https://mp.weixin.qq.com/s/Qr4ycteDkopspO-DlD_yOQ?click_id=79
- 詹俊張路解說魔都高校德比
![]()
https://mp.weixin.qq.com/s/Qr4ycteDkopspO-DlD_yOQ?click_id=79
- 賈玲、劉德華和周杰倫閑聊
![]()
https://mp.weixin.qq.com/s/Qr4ycteDkopspO-DlD_yOQ?click_id=79
MOSS-TTSD-V1.0 無論是在客觀指標還是主觀評測中均領先于當前主流的閉源及開源模型。
MOSS-VoiceGenerator:用指令 “設計” 聲音與角色
在很多創作流程中,創作者并不只是需要 “某個人的聲音”,而是需要一個具備性格、情緒與表演狀態的角色聲音。
而 MOSS-VoiceGenerator 恰恰提供了這樣的能力
- 強烈且自然的情緒表達與轉變
- 接近真實表演狀態的音色與氣息變化
- 清晰的角色感
MOSS-VoiceGenerator 可以作為:
- 角色原型的生成工具
- IP 聲音設計的起點
- 與 TTS / TTSD 組合使用的 “聲音設計層”
- 年輕男性,陰陽怪氣,拖長音,極盡嘲諷
![]()
https://mp.weixin.qq.com/s/Qr4ycteDkopspO-DlD_yOQ?click_id=79
- 撕心裂肺,聲淚俱下的中年女性
![]()
https://mp.weixin.qq.com/s/Qr4ycteDkopspO-DlD_yOQ?click_id=79
MOSS-SoundEffect:從文字描述直接生成環境音與音效
完整的聲音體驗不僅來自 “說話的人”,也來自空間、動作與環境。
MOSS-SoundEffect 能夠用來在合適的情境補充身臨其境的音效,支持生成的音效類型包括:
- 自然環境音:例如,“踩在新雪上的嘎吱聲”。
- 城市環境音:例如,“一輛跑車在高速公路上呼嘯而過”。
- 動物音:例如,“清晨的公園里,鳥兒在靜謐的氛圍中鳴叫”。
- 人類活動音:例如,“清晰的腳步聲在水泥地上回蕩,節奏穩定”
MOSS-TTS-Realtime:面向實時系統的流式語音生成
在語音助手、實時對話與交互式系統中,延遲與穩定性往往比 “極致音質” 更重要。
特點
- 流式文本輸入,流式語音輸出
- 適合作為 LLM 的語音外掛能力
MOSS-TTS-Streaming 是整個模型家族中,最偏向 “系統能力” 的一環。
Case-by-case 對比:與其他閉源與開源模型的效果對比
在展示 MOSS-TTS Family 自身能力的同時,我們也將模型放入更廣泛的行業背景中進行驗證。
為此,我們選取了多種具有代表性的閉源與開源語音生成模型,在盡量統一的輸入條件下,對模型輸出效果進行了case-by-case 的對比測試,以更客觀地觀察不同系統在實際任務中的表現差異。
對比維度包括但不限于:
- 音色相似度與一致性
- 表達自然度與表現力
- 場景適配能力
所有對比示例均基于相同或等價的文本與參考條件生成,旨在呈現不同模型在具體使用場景中的實際輸出效果,而非單一指標或主觀印象。
技術方法
MOSS-TTS Family 的能力,建立在系統性的技術選擇與工程實踐之上。該模型的核心在于回歸語音生成任務中三個最為重要的因素:高質量的 Audio Tokenizer、大規模、高質量且多樣化的預訓練數據,以及高效的離散 Token 建模方法。這些要素的結合,使我們能夠以出人意料的簡潔方法實現最先進的性能:一個簡單的自回歸范式 —— 架構盡可能精簡,結果卻足夠強大。
高性能音頻 Tokenizer,夯實高保真生成的底座
- MOSS Audio Tokenizer是一個基于CatCausalAudioTokenizer withTransformer) 架構的 1.6B 參數量的音頻 tokenizer。該模型旨在為自回歸音頻大模型提供統一的離散化音頻接口,兼具無損重構能力與卓越的音頻 - 文本語義對齊性能。
- 技術特性:
1.高壓縮比與變比特率: 支持將 24kHz 音頻壓縮至 12.5 fps。基于 32 層 RVQ 機制,模型可在 0.125-4kbps 范圍內實現靈活的碼率調節,滿足不同場景下的高保真重建需求。
2.純 Transformer 同構架構: 采用無 CNN 的全因果 Transformer 設計。其 16 億參數規模確保了強大的模型容量與可擴展性,并且可以支持幀級別的流式編碼與解碼。
3.通用音頻表征能力: 歷經 300 萬小時超大規模音頻數據的預訓練,覆蓋語音、音效、音樂等全領域,具備極強的泛化能力。
4.語義 - 聲學統一表征: MOSS Audio Tokenizer 編碼得到的離散 Token 在保持 SOTA 級高保真還原音質的前提下,還蘊含了豐富的語義信息,能天然適配自回歸生成模型的建模需求。
5.零預訓練依賴: 避開了對現有音頻預訓練模型(如 Whisper、HuBERT)的依賴或蒸餾,完全通過原始數據自主學習音頻特征。
6.端到端聯合訓練: 實現所有模塊(編碼器、量化器、解碼器,判別器及用于語義對齊的 LLM )的全閉環聯合優化,確保系統整體性能的協同提升。
- 總結:
MOSS Audio Tokenizer 憑借其極簡且易擴展的架構設計與超大規模數據的深度融合,徹底打破了傳統音頻 tokenizer 的性能瓶頸。它為下一代原生音頻基座模型(Native Audio Foundation Models)提供了一個穩定、高保真且深度對齊語義的標準接口。
![]()
下圖是 MOSS Audio Tokenizer 和其他開源 Audio Tokenizer 在 LibriSpeech test clean 數據集上的重建客觀指標對比,可以發現在相近 bps 下, MOSS Audio Tokenizer 在 0-4kbps 下的重建質量領先于其他的開源 audio tokenizer
![]()
![]()
![]()
![]()
大規模高質量多樣化預訓練數據,驅動泛化與可控性躍遷
- MOSS Data Engine是支撐 MOSS-TTS Family 的數據生產系統:它不只是 “收集與清洗”,而是將真實世界的海量原始音頻轉化為可復用的訓練資產 —— 既能承載長時敘事的穩定性,也能覆蓋對話交互、角色塑造與音效補全等多種生成形態。
- 在規模維度上,Data Engine 的語音主干語料包括數百萬小時的 TTS 數據與數百萬小時的 TTSD 數據;同時,系統還持續構建面向音色 / 角色設計與環境音 / 音效生成的專用數據資產,與主干語料在同一標準體系下協同演進。
- 在方法維度上,我們以 “多階段治理 + 交叉一致性驗證 + 面向模型家族的多軌數據資產” 組織整個流程:從音頻質量與一致性、到內容對齊與可訓練性,再到按任務形態拆分與組合,最終形成可直接喂給MOSS-TTS / TTSD / VoiceGenerator / SoundEffect / Realtime的多軌數據供給,讓家族模型既共享同一底座,又各自獲得對任務最關鍵的訓練信號。
![]()
雙架構并行開源,覆蓋性能 — 時延全譜系
為兼顧真實業務落地與學術研究可復現性,MOSS-TTS 選擇同時訓練并開源兩套互補架構。我們并非在單一路線上 “押注”,而是以工程可用性為底線、以架構探索為上限,系統性地覆蓋語音生成在長文本穩定性、推理效率、流式時延、客觀指標等維度上的關鍵取舍,給社區與產業提供兩條同等強勢的技術路徑與研究基線。
![]()
圖例:左:Delay-Pattern(MossTTSDelay) 采用單一 Backbone +(n_vq+1)Heads,通過多碼本 RVQ 的 delay scheduling 自回歸生成音頻 token;右:Global Latent + Local Transformer(MossTTSLocal) 由 Backbone 每步輸出全局潛變量,再由輕量 Local Transformer 逐步發射 token block,更適合低時延流式合成。
架構 A:Delay-Pattern(MossTTSDelay)—— 更穩、更快、更 “能上生產”
- 單 Transformer 主干 + (n_vq + 1) Heads:以統一骨干承載語義與聲學生成,輸出頭直接面向多碼本(RVQ)token 預測。
- Delay Scheduling 多碼本延遲調度:通過精心設計的延遲機制,穩定地處理多碼本 token 的時序和層級關系。
- 核心優勢:在長上下文場景下保持更強的一致性與魯棒性,同時具備更高的推理效率與更友好的生產行為 ——適合長篇敘述、內容生成與規模化部署
架構 B:Global Latent + Local Transformer(MossTTSLocal)—— 更輕、更靈活、更 “適配流式”
- Backbone 產出每步 Global Latent:主干網絡在每個時間步凝聚生成所需的全局表征。
- 輕量 Local Transformer 每步發射 Token Block:用更小的局部自回歸模塊生成成塊的音頻 token,提高吞吐并降低端到端時延。
- Streaming-Friendly 的簡化對齊:無需 delay scheduling,結構更直接、對齊更簡潔 ——天然適配流式輸入 / 輸出與實時交互
- 核心優勢:模型更小、更易擴展,在客觀基準上表現突出,特別適合作為流式和實時系統的強基線。
為什么要訓練兩套?
- 架構潛力的系統性驗證:我們同時覆蓋兩種代表性的生成范式,不止追求單點 SOTA,而是追求 “能跑通、能復現、能迭代” 的體系化能力。
- 明確且互補的 tradeoff:Delay-pattern 往往在長文合成更快更穩;Local 架構更輕量,且在客觀指標上更具優勢 —— 兩者共同覆蓋從離線高質量到在線低時延的完整需求。
- 更高的開源價值:一次開源提供兩條強路徑,既是可直接落地的工程方案,也是可用于消融、對比與下游創新的高質量基座 —— 讓研究者更容易定位關鍵因素,讓工程團隊更容易找到適配場景的最優解。
一句話總結:MOSS-TTS 的 “雙架構” 不是 “多此一舉”,而是我們對真實世界語音生成的核心判斷 ——真正可用的 TTS,不該只在單一指標上贏,而應當在不同場景下都能以明確的權衡給出最強解。
國產 GPU 生態支持
MOSS-TTS 及 MOSS-TTSD 兩個主力模型均實現了壁仞科技 壁礪? 166M的 Day-0 高性能推理部署支持。在國產算力生態的加持下,MOSS-TTS 系列將能夠深入更多領域和場景。
我們將在獨立的技術報告中,對模型設計、訓練方法與評測結果進行完整披露。
結語
MOSS-TTS Family 的開源與發布,是團隊使命在語音領域的一次落地多模態 ? 開放生態 ? 超級智能:既面向生產,把穩定、效率與可控性做到可用可部署;也面向研究,把關鍵選擇與可復現基線交到社區手中。我們相信,通往更強智能的道路,必然來自多模態能力的持續進化,來自開放協作的長期積累,來自把技術推向現實世界的每一次交付。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.