放個(gè)演示
公式能讀對(duì),非常牛逼
這是字節(jié)新出的「豆包語音 2.0」
今天發(fā)布,這里訪問:
https://console.volcengine.com/speech/new/
![]()
我參與了這模型的內(nèi)測(cè),今天模型發(fā)布,來講講這玩意兒的不同之處:
- 對(duì)話式合成
- 復(fù)雜公式朗讀
- 聲音復(fù)刻升級(jí)
對(duì)話式合成
先比較下這兩段
這個(gè)是 豆包語音2.0,可以設(shè)置情景:
[用哽咽但努力忍住、帶著笑意的語氣]謝謝你們……真的……我以為……我以為沒人記得我生日了……我今天一整天都在想,可能大家都忙吧,忘了也正常……我自己都快忘了……結(jié)果你們……你們居然……還準(zhǔn)備了這么多……蛋糕也買了,禮物也有……你們這群壞蛋……我剛才還在那兒自怨自艾呢……覺得自己特別可憐……現(xiàn)在搞得我像個(gè)傻子一樣……眼淚都止不住了……真的……謝謝你們……有你們真好……
作為對(duì)比,這是 GPT-4o 的 tts,默認(rèn)音色:
是不是感情豐富了?這就是「對(duì)話式合成」
給到上下文、指令和背景設(shè)定,AI 便會(huì)以更合適的口吻播出來
這里有三種方式:括號(hào)指令、語音指令和增加上文
方式1:括號(hào)指令
類似 prompt,你可以在句子前加指令,比如[生氣的說],AI 并不會(huì)讀括號(hào)里的內(nèi)容,而是會(huì)使用對(duì)應(yīng)的口吻

出來的效果是這樣:
(我用了小姑娘的音色,奶兇奶兇)
再來一個(gè)
[興奮溢于言表]臥槽!過了過了!我他媽真的過了!剛看到offer郵件,我還以為系統(tǒng)出bug了,刷了好幾遍確認(rèn)不是做夢(mèng)!你知道嗎,這公司我面了三輪,每輪都覺得自己要掛,尤其最后那輪技術(shù)面,我有好幾個(gè)問題都沒答上來……結(jié)果他們還是要我了!而且薪資比我預(yù)期的還高五千!我現(xiàn)在坐在星巴克,手機(jī)都快被我刷壞了,就一直盯著那封郵件看……兄弟,我終于他媽要翻身了!
這中間的笑聲穿插,有些吞掉一半的字,絕了!要是不說,恐怕真沒人能察覺
通過這種方式,你可以控制每句話的場(chǎng)景
方式2:語音指令
類似 system prompt,你也可以通過對(duì)整段內(nèi)容進(jìn)行控制,比如情緒、方言、語速、語調(diào)等

舉幾個(gè)例子
吵架
指令: <你得跟我互懟!就是跟我用吵架的語氣對(duì)話>
合成文本: 那你另請(qǐng)高明啊,你找我干嘛!我告訴你,你也不是什么好東西!
曖昧/悄悄話
指令: <用asmr的語氣來試試撩撩我>
合成文本: 你知道嗎,我真的很喜歡你的聲音。你說話的時(shí)候,聲音特別溫柔,特別好聽,每次聽到你的聲音,我都覺得心里暖暖的,特別舒服。
方式3:增加上文
當(dāng)然了,你也可以直接添加上文,讓音色更連貫

然后,你就有了這個(gè)(沒克隆音色)
做個(gè)比較:有上下文 vs 無上下文
無引用是這樣:
北京…因?yàn)槲襾恚@是第二次,上一次是在一…八年還是什么時(shí)候來過一次但是時(shí)間很短也沒有時(shí)間去,真正的去游歷,所以北京對(duì)我來說…只是…還存在一種想象之中啊,嗯沒有太多的,直觀的體驗(yàn)。
有引用是這樣,引用上文: <你怎么評(píng)價(jià)北京這個(gè)城市?>
合成文本: 北京…因?yàn)槲襾恚@是第二次,上一次是在一…八年還是什么時(shí)候來過一次但是時(shí)間很短也沒有時(shí)間去,真正的去游歷,所以北京對(duì)我來說…只是…還存在一種想象之中啊,嗯沒有太多的,直觀的體驗(yàn)。
在這個(gè) case 中,AI 理解了問詢的語境,呈現(xiàn)出思考和停頓的感覺
這里再多點(diǎn)例子
引用上文:
<是… 是你嗎?怎么看著… 好像沒怎么變啊?>
合成文本: 你頭發(fā)長(zhǎng)了… 以前總說留不長(zhǎng),十年了… 你還好嗎?
這三種方式,可以單獨(dú)用,也可以組合用
甚至再組合點(diǎn)別點(diǎn)工具
來完成個(gè)青頭潛鴨的繪本
說到這,突然想起一個(gè)事,算作冷知識(shí)
ChatGPT 之所以會(huì)火,很大程度上是【AI 理解了上下文】
其實(shí)吧,早在 2020 年,GPT-3 就有了
當(dāng)時(shí)叫「達(dá)芬奇-003」,只有少量開發(fā)者在用
到了 2022 年 ChatGPT 發(fā)布,大火出圈
這兩者技術(shù)上差別不大,核心區(qū)別是什么?
3.5 給了 AI 以人格,給了他上下文,并進(jìn)行了特別的后訓(xùn)練
于是, AI 不再以「句子填空」為任務(wù),轉(zhuǎn)而開始回答問題了
從接口的角度,GPT-3 的的時(shí)候,邏輯是這樣
人給到半句話,AI 接著向后補(bǔ)全:
輸入: 天空為什么是藍(lán)色的?因?yàn)?輸出(其實(shí)是補(bǔ)全): 瑞利散射導(dǎo)致短波長(zhǎng)的藍(lán)光更容易被散射...而 ChatGPT 呢?是這樣:
System(預(yù)設(shè)): 你是一個(gè) helpful assistant User(用戶的輸入): 天空為什么是藍(lán)色的 Assistant(AI 的輸出): 這是個(gè)好問題!天空看起來是藍(lán)色的...多了什么?
多了 role(角色)的概念
System、User、Assistant 這些 role 告訴 AI:
- 你是誰(助手、老師、朋友)
- 你該怎么說話(友好、專業(yè)、幽默)
- 你在什么場(chǎng)景下(課堂、聊天、工作)
正是這些東西 讓 AI 從"補(bǔ)全工具"變成了"對(duì)話伙伴"
豆包語音 2.0 做的事情,本質(zhì)上是一樣的 給 TTS 加上了"人格"
復(fù)雜公式朗讀
回到最開始的那個(gè) Case,令人咋舌的公式朗讀
再教學(xué)內(nèi)容里,會(huì)涉及大量復(fù)雜符號(hào)
比如這樣的:∑、?、∫
講道理...這個(gè) ∫ 咋讀啊
(好像都是直接說:從xx到xx的積分)
還有數(shù)學(xué)語義理解
比如 x2 要讀「x 的平方」,不能讀「x2」
這些東西,市面上的模型,普遍都得寄
豆包語音 2.0 則做了專項(xiàng)優(yōu)化
小學(xué)到高中全學(xué)科的復(fù)雜公式
準(zhǔn)確率能到 90%
這倆都是豆包讀的,說實(shí)話,挺狠的
不過這個(gè)功能目前只能通過 api 來調(diào)用,網(wǎng)頁上還得再等等
5 秒復(fù)刻音色
豆包語音 2.0 也支持你來自定義音色
https://console.volcengine.com/speech/new/experience/clone
比如讓豆包學(xué)我說話,有兩種做法:
1. 上傳一段我的語音
2. 直接錄制,對(duì)著「貝加爾湖」的文案讀一遍
![]()
支持中、英、日、西、葡等多語種
回望
這個(gè) 2.0 的模型,今天就能體驗(yàn)了
入口:https://console.volcengine.com/speech/new/
![]()
回望一年前,那時(shí)候還叫 Seed-TTS 剛發(fā)論文
我也在第一時(shí)間做了報(bào)道
那個(gè)時(shí)候,豆包語音 1.0 搞定了「說得像」
- 超自然(堪比真人)
- 多情緒(喜怒哀樂)
- 多場(chǎng)景(26 個(gè)精品音色)
而今天上線的 豆包語音 2.0,則搞定了「說得對(duì)」,變得可以理解場(chǎng)景
1.0到2.0,從說得像,到說得對(duì)。一晃一年半了,頗多感慨
最后說兩句
這個(gè)語音模型,是字節(jié)在武漢的發(fā)布會(huì)放出來的
除了這個(gè)語音模型外,字節(jié)這次還更新了別的,比如:豆包 1.6 系列、圖像生成 Seedream 4.0、視頻生成 Seedance 1.0、編程模型等
大致如下,我畫了個(gè)一圖流
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.