IT之家 12 月 24 日消息,阿里通義今日官宣,Qwen3-TTS 家族新推出兩款模型,音色創(chuàng)造模型 Qwen3-TTS-VD-Flash 和音色克隆模型 Qwen3-TTS-VC-Flash。IT之家附模型主要特點(diǎn)如下:
- 音色創(chuàng)造:Qwen3-TTS-VD-Flash 支持復(fù)雜自然語(yǔ)言指令輸入,實(shí)現(xiàn)對(duì)音色、韻律、情感、人設(shè)等的精細(xì)化調(diào)控,實(shí)現(xiàn)從“說(shuō)什么”到“如何說(shuō)”的全面掌控,可以讓用戶(hù)自由地定義想要的音色,徹底擺脫只能進(jìn)行根據(jù)已有的音色進(jìn)行克隆或者只能選擇固定的一部分預(yù)設(shè)音色。在 InstructTTS-Eval 中綜合表現(xiàn)顯著優(yōu)于 GPT-4o-mini-tts、Mimo-audio-7b-instruct,在角色扮演測(cè)試中也超越 Gemini-2.5-pro-preview-tts。
- 音色克隆:Qwen3-TTS-VC-Flash 支持 3s 級(jí)別音色克隆,并且可以基于克隆的音色生成中文、英文、德語(yǔ)、意大利語(yǔ)、葡萄牙語(yǔ)、西班牙語(yǔ)、日語(yǔ)、韓語(yǔ)、法語(yǔ)、俄語(yǔ)等 10 大主流語(yǔ)言。在 MiniMax TTS Multilingual Test Set 上,平均詞錯(cuò)誤率(WER)全面優(yōu)于 MiniMax、ElevenLabs 及 GPT-4o-Audio-Preview。
- 高表現(xiàn)力:Qwen3-TTS-VD-Flash 和 Qwen3-TTS-VC-Flash 具備高表現(xiàn)力的擬人化音色,能夠穩(wěn)定、可靠地輸出高度契合輸入文本的語(yǔ)音內(nèi)容,并根據(jù)文本語(yǔ)義自動(dòng)調(diào)節(jié)語(yǔ)氣節(jié)奏,呈現(xiàn)自然生動(dòng)的表達(dá)效果。
- 魯棒的文本能力:Qwen3-TTS-VD-Flash 和 Qwen3-TTS-VC-Flash 具備強(qiáng)大的文本解析能力,可自動(dòng)處理復(fù)雜文本結(jié)構(gòu),精準(zhǔn)提取關(guān)鍵信息,對(duì)多樣化、非規(guī)范化的文本格式展現(xiàn)出較強(qiáng)的魯棒性(IT之家注:robustness,系統(tǒng)在面臨內(nèi)部結(jié)構(gòu)或外部環(huán)境的改變時(shí)維持功能穩(wěn)定運(yùn)行的能力)。
Qwen3-TTS 支持通過(guò)自然語(yǔ)言描述生成定制化的音色形象。用戶(hù)可以隨意輸入聲學(xué)屬性、人設(shè)描述、背景信息等自由描述,輕松創(chuàng)造出自己期望的聲音形象。
可控生成:在 InstructTTS-Eval 中,Qwen3-TTS 綜合表現(xiàn)顯著優(yōu)于 GPT-4o-mini-tts、Mimo-audio-7b-instruct,在角色扮演測(cè)試中也超越 Gemini-2.5-pro-preview-tts。
![]()
Qwen3-TTS-VC-Flash
Qwen3-TTS 支持通過(guò)自然 3s 級(jí)別音色克隆,并且可以基于克隆的音色生成多語(yǔ)種音頻,同時(shí)對(duì)復(fù)雜文本和野生音頻都有較高的魯棒性。
多語(yǔ)種音色克隆:在 MiniMax TTS Multilingual Test Set 上,Qwen3-TTS 在中、英、法、意大利等語(yǔ)項(xiàng)的內(nèi)容穩(wěn)定性?xún)?yōu)于 MiniMax、ElevenLabs 及 GPT-4o-Audio-Preview;其平均詞錯(cuò)誤率(WER)位居第一。
![]()
Qwen3-TTS-Voice-Design API 文檔:
Qwen3-TTS-Voice-Clone API 文檔:
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.