作者|子川
來源|AI先鋒官
最近,阿里通義上線了Qwen3-TTS的兩大核心能力——VoiceDesign(VD-Flash)和VoiceClone(VC-Flash)。
此次上新,甩出了兩大核心能力:
VoiceDesign(VD-Flash):告別“選音色”,直接用文設計出聲音。
VoiceClone(VC-Flash):僅需3秒,實現跨語言、甚至跨物種的音色克隆。
據官方披露的數據顯示,其生成速度達到了驚人的0.1秒級,且在多項核心指標上,直接超越了OpenAI的GPT-4o-Audio和目前國內語音霸主MiniMax。
那它的實際表現如何?我們實際體驗一下。
VoiceDesign(VD-Flash):用文字“設計”聲音
過去,你要找一個合適的配音,得在幾十種預設音色里反復試聽,總覺得“差點意思”。
現在,你只需要用自然語言描述你想要的音色,模型就能從無到有地創造出來。
比如,輸入“展現出悲苦沙啞的聲音質感,語速偏慢,情緒濃烈且帶有哭腔,以標準普通話緩慢訴說,情感強烈,語調哀怨高亢,音高起伏大。”
能明顯的聽到聲帶因為哽咽而緊繃的摩擦感。每一句的尾音都帶著無法控制的顫抖,效果非常的逼真。
或者輸入一個非常簡潔的指令“邪惡女魔頭”。
效果依舊抗打。
并且紙面實力也不弱,在 InstructTTS-Eval 中,Qwen3-TTS 綜合表現顯著優于 GPT-4o-mini-tts、Mimo-audio-7b-instruct,在角色扮演測試中也超越 Gemini-2.5-pro-preview-tts。
![]()
VoiceClone(VC-Flash):3秒音頻,跨語言、跨物種級別的音色克隆。
如果說VoiceDesign是“創造聲音”,那么VoiceClone就是“復刻聲音”的終極形態。
只需要上傳一段3-10秒的真人錄音,模型就能捕捉其音色、韻律和發音特征,生成幾乎一模一樣的克隆語音。
這里克隆一個大家非常熟悉的聲音——雷總的聲音。
原聲參考:
合成文本:
前方3公里施工路段,為您切換滬昆高速。已為您預約十七點二十分到達高鐵站,出口右轉有藍色遮陽棚,導航將持續為您更新路況。
合成聲音:
可以明顯地感受到,雷總的音色還原度非常高!
它不僅把雷總那股標志性的普通話味兒給復刻了,甚至連說話時那種“略帶誠懇的語氣”習慣都呈現出來了。
同時 VoiceDesign還有 跨語言能力,比如,你上傳一段自己的中文錄音,模型能讓“你”說出地道的英語、日語或德語,而且保持音色一致性。
比如讓雷總化身英語口語達人,開口說英語。
再換一個,克隆蔡徐坤的聲音。
原聲參考:
合成文本:
大家好,我是蔡徐坤。1998 年出生,舞臺是我的主場,音樂是我的母語。從《偶像練習生》C 位斷層出道,到《Hug me》全網刷屏,我一直用原創作品說話。歌手、制作人、演員,多面身份,一樣熾熱。下一束燈光亮起,我會繼續用舞臺炸響每一次心跳。請多關照!
合成聲音:
音色還原度依舊很高!不過 這次會明顯感受到聲音的停頓有些許的不自然。
還有很新奇的“跨物種”克隆功能,簡單來說就是,該模型能捕捉動物叫聲的特征,然后讓它說出人類語言(當然,這更多是娛樂應用)。
再來看紙面實力,DoiceClone(VC-Flash)的錯誤率比 ElevenLabs/GPT-4o 低 15%。
![]()
以前我們還在糾結AI聲音不夠自然,或許現在我們可能要開始擔心:電話那頭跟你聊天的,到底是不是真人?
目前,Qwen3-TTS 已在阿里云百煉和魔搭社區全面上線,感興趣的可以去試玩一番。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.