網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

豆包語音 2.0：數(shù)學(xué)公式也能讀

2025-10-16 13:11:13　來源: 賽博禪心

北京舉報(bào)

分享至

放個(gè)演示

公式能讀對(duì)，非常牛逼

這是字節(jié)新出的「豆包語音 2.0」

今天發(fā)布，這里訪問：

https://console.volcengine.com/speech/new/

我參與了這模型的內(nèi)測(cè)，今天模型發(fā)布，來講講這玩意兒的不同之處：

對(duì)話式合成
復(fù)雜公式朗讀
聲音復(fù)刻升級(jí)

對(duì)話式合成

先比較下這兩段

這個(gè)是豆包語音2.0，可以設(shè)置情景：

[用哽咽但努力忍住、帶著笑意的語氣]謝謝你們……真的……我以為……我以為沒人記得我生日了……我今天一整天都在想，可能大家都忙吧，忘了也正常……我自己都快忘了……結(jié)果你們……你們居然……還準(zhǔn)備了這么多……蛋糕也買了，禮物也有……你們這群壞蛋……我剛才還在那兒自怨自艾呢……覺得自己特別可憐……現(xiàn)在搞得我像個(gè)傻子一樣……眼淚都止不住了……真的……謝謝你們……有你們真好……

作為對(duì)比，這是 GPT-4o 的 tts，默認(rèn)音色：

是不是感情豐富了？這就是「對(duì)話式合成」

給到上下文、指令和背景設(shè)定，AI 便會(huì)以更合適的口吻播出來

這里有三種方式：括號(hào)指令、語音指令和增加上文

方式1：括號(hào)指令

類似 prompt，你可以在句子前加指令，比如[生氣的說]，AI 并不會(huì)讀括號(hào)里的內(nèi)容，而是會(huì)使用對(duì)應(yīng)的口吻

出來的效果是這樣：

（我用了小姑娘的音色，奶兇奶兇）

再來一個(gè)

[興奮溢于言表]臥槽！過了過了！我他媽真的過了！剛看到offer郵件，我還以為系統(tǒng)出bug了，刷了好幾遍確認(rèn)不是做夢(mèng)！你知道嗎，這公司我面了三輪，每輪都覺得自己要掛，尤其最后那輪技術(shù)面，我有好幾個(gè)問題都沒答上來……結(jié)果他們還是要我了！而且薪資比我預(yù)期的還高五千！我現(xiàn)在坐在星巴克，手機(jī)都快被我刷壞了，就一直盯著那封郵件看……兄弟，我終于他媽要翻身了！

這中間的笑聲穿插，有些吞掉一半的字，絕了！要是不說，恐怕真沒人能察覺

通過這種方式，你可以控制每句話的場(chǎng)景

方式2：語音指令

類似 system prompt，你也可以通過對(duì)整段內(nèi)容進(jìn)行控制，比如情緒、方言、語速、語調(diào)等

舉幾個(gè)例子

吵架

指令： <你得跟我互懟！就是跟我用吵架的語氣對(duì)話>

合成文本：那你另請(qǐng)高明啊，你找我干嘛！我告訴你，你也不是什么好東西！

曖昧/悄悄話

指令： <用asmr的語氣來試試撩撩我>

合成文本：你知道嗎，我真的很喜歡你的聲音。你說話的時(shí)候，聲音特別溫柔，特別好聽，每次聽到你的聲音，我都覺得心里暖暖的，特別舒服。

方式3：增加上文

當(dāng)然了，你也可以直接添加上文，讓音色更連貫

然后，你就有了這個(gè)（沒克隆音色）

做個(gè)比較：有上下文 vs 無上下文

無引用是這樣：

北京…因?yàn)槲襾恚@是第二次，上一次是在一…八年還是什么時(shí)候來過一次但是時(shí)間很短也沒有時(shí)間去，真正的去游歷，所以北京對(duì)我來說…只是…還存在一種想象之中啊，嗯沒有太多的，直觀的體驗(yàn)。

有引用是這樣，引用上文： <你怎么評(píng)價(jià)北京這個(gè)城市？>

合成文本：北京…因?yàn)槲襾恚@是第二次，上一次是在一…八年還是什么時(shí)候來過一次但是時(shí)間很短也沒有時(shí)間去，真正的去游歷，所以北京對(duì)我來說…只是…還存在一種想象之中啊，嗯沒有太多的，直觀的體驗(yàn)。

在這個(gè) case 中，AI 理解了問詢的語境，呈現(xiàn)出思考和停頓的感覺

這里再多點(diǎn)例子

引用上文：

<是… 是你嗎？怎么看著… 好像沒怎么變啊？>

合成文本：你頭發(fā)長(zhǎng)了… 以前總說留不長(zhǎng)，十年了… 你還好嗎？

這三種方式，可以單獨(dú)用，也可以組合用

甚至再組合點(diǎn)別點(diǎn)工具

來完成個(gè)青頭潛鴨的繪本

說到這，突然想起一個(gè)事，算作冷知識(shí)

ChatGPT 之所以會(huì)火，很大程度上是【AI 理解了上下文】

其實(shí)吧，早在 2020 年，GPT-3 就有了

當(dāng)時(shí)叫「達(dá)芬奇-003」，只有少量開發(fā)者在用

到了 2022 年 ChatGPT 發(fā)布，大火出圈

這兩者技術(shù)上差別不大，核心區(qū)別是什么？

3.5 給了 AI 以人格，給了他上下文，并進(jìn)行了特別的后訓(xùn)練

于是， AI 不再以「句子填空」為任務(wù)，轉(zhuǎn)而開始回答問題了

從接口的角度，GPT-3 的的時(shí)候，邏輯是這樣

人給到半句話，AI 接著向后補(bǔ)全：

輸入： 天空為什么是藍(lán)色的？因?yàn)?輸出（其實(shí)是補(bǔ)全）： 瑞利散射導(dǎo)致短波長(zhǎng)的藍(lán)光更容易被散射...

而 ChatGPT 呢？是這樣：

System（預(yù)設(shè)）： 你是一個(gè) helpful assistant User（用戶的輸入）： 天空為什么是藍(lán)色的 Assistant（AI 的輸出）： 這是個(gè)好問題！天空看起來是藍(lán)色的...

多了什么？

多了 role（角色）的概念

System、User、Assistant 這些 role 告訴 AI：

你是誰（助手、老師、朋友）
你該怎么說話（友好、專業(yè)、幽默）
你在什么場(chǎng)景下（課堂、聊天、工作）

正是這些東西讓 AI 從"補(bǔ)全工具"變成了"對(duì)話伙伴"

豆包語音 2.0 做的事情，本質(zhì)上是一樣的給 TTS 加上了"人格"

復(fù)雜公式朗讀

回到最開始的那個(gè) Case，令人咋舌的公式朗讀

再教學(xué)內(nèi)容里，會(huì)涉及大量復(fù)雜符號(hào)

比如這樣的：∑、?、∫

講道理...這個(gè) ∫ 咋讀啊

（好像都是直接說：從xx到xx的積分）

還有數(shù)學(xué)語義理解

比如 x2 要讀「x 的平方」，不能讀「x2」

這些東西，市面上的模型，普遍都得寄

豆包語音 2.0 則做了專項(xiàng)優(yōu)化

小學(xué)到高中全學(xué)科的復(fù)雜公式

準(zhǔn)確率能到 90%

這倆都是豆包讀的，說實(shí)話，挺狠的

不過這個(gè)功能目前只能通過 api 來調(diào)用，網(wǎng)頁上還得再等等

5 秒復(fù)刻音色

豆包語音 2.0 也支持你來自定義音色

https://console.volcengine.com/speech/new/experience/clone

比如讓豆包學(xué)我說話，有兩種做法：

1. 上傳一段我的語音

2. 直接錄制，對(duì)著「貝加爾湖」的文案讀一遍

支持中、英、日、西、葡等多語種

回望

這個(gè) 2.0 的模型，今天就能體驗(yàn)了

入口：https://console.volcengine.com/speech/new/

回望一年前，那時(shí)候還叫 Seed-TTS 剛發(fā)論文

我也在第一時(shí)間做了報(bào)道

那個(gè)時(shí)候，豆包語音 1.0 搞定了「說得像」

超自然（堪比真人）
多情緒（喜怒哀樂）
多場(chǎng)景（26 個(gè)精品音色）

而今天上線的 豆包語音 2.0，則搞定了「說得對(duì)」，變得可以理解場(chǎng)景

1.0到2.0，從說得像，到說得對(duì)。一晃一年半了，頗多感慨

最后說兩句

這個(gè)語音模型，是字節(jié)在武漢的發(fā)布會(huì)放出來的

除了這個(gè)語音模型外，字節(jié)這次還更新了別的，比如：豆包 1.6 系列、圖像生成 Seedream 4.0、視頻生成 Seedance 1.0、編程模型等

大致如下，我畫了個(gè)一圖流

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.