從開源VibeVoice-ASR看語音模型的設(shè)計、數(shù)據(jù)、幻覺和未來

2026-02-06 16:36:13　來源: 開源中國

廣東舉報

分享至

最近，微軟開源了VibeVoice-ASR，我也第一時間進行了體驗。首先，對微軟團隊開源這個模型表示感謝。盡管在測試過程中發(fā)現(xiàn)了一些問題，但任何開源工作都值得尊重。作為開源工作，我們沒有任何理由要求太多，這些問題也都是可以解決的，況且微調(diào)代碼也即將開源。并且從我粗淺的直覺和簡陋的測試上得出的結(jié)論：如果可以從數(shù)據(jù)覆蓋上進一步優(yōu)化，這個模型應該還是有潛力的。在此，我想基于這個工作，聊一聊VibeVoice-ASR的優(yōu)點與不足，并分享一些對模型設(shè)計和數(shù)據(jù)的思考。

多任務的模型設(shè)計

雖然模型命名為VibeVoice-ASR，但它并非單純的語音轉(zhuǎn)文字模型。VibeVoice-ASR集成了說話人日志、時間戳以及部分聲音事件檢測功能。

這樣的多任務設(shè)計符合大模型時代的技術(shù)趨勢，也契合未來的用戶需求。如今，僅實現(xiàn)語音轉(zhuǎn)錄已遠遠不夠。無論是底層模型還是上層應用，乃至用戶對智能體驗日益提升的期待，都要求我們從語音數(shù)據(jù)中提取更豐富的信息。用戶對產(chǎn)品的追求不再停留在基礎(chǔ)功能，而更多地轉(zhuǎn)向情感價值與類人體驗。

關(guān)注聲音特性

先吐個槽，我非常反感各類PR文章的自夸，動輒宣稱“世界第一”。（我能理解，畢竟要給投資人、客戶看，也需要曝光度。）但這種風氣很容易誤導行業(yè)外的人。畢竟，包括我在內(nèi)，99%的負責人今天做什么，取決于早上在自媒體上刷到了什么（借用別人的段子）。

我認為，聲音在機器理解用戶方面的價值被嚴重低估了。理解聲音，是通往“世界模型”、理解世界不可或缺的一環(huán)。

遺憾的是，目前除了Gemini，我還沒看到能與之比肩的系統(tǒng)。我也認為這是谷歌布局未來重要的一步。（不得不提一句，至于那些號稱超越的，或許在某些測試集和指標上能實現(xiàn)超越，這一點我并不否認。）

VibeVoice-ASR模型其實讓我有所期待。至少，它是開源模型中明確對聲紋進行建模的，并且在我真實測試集（家庭錄音，包括男性、女性、兒童）中，在區(qū)分度較大的場景下是可用的。

“建模聲紋很難嗎？”“是的?！?/p>
“聲紋識別現(xiàn)在做得很好了嗎？”“并沒有?！?/p>

聲紋作為聲音的底層屬性，與語音語義有很大不同。識別一個人的聲紋，對人類來說也并非易事。我們覺得容易，大多是因為我們接觸的聲紋往往是“已注冊”的。從模型實現(xiàn)來看，聲紋的做法看似簡單，但實際效果并不理想，原因有多方面：

極易受環(huán)境干擾

與ASR相比，聲紋更易受聲學環(huán)境干擾。訓練數(shù)據(jù)的覆蓋范圍、環(huán)境噪聲、信道差異，以及注冊與使用條件的不一致，都會影響最終效果。

聲紋具有時變性

聲紋會隨時間發(fā)生漂移，比如兒童的聲音變化最快，不同兒童之間的聲音區(qū)分也很困難，成人的聲音也會因狀態(tài)（如感冒、情緒）而改變。

聲紋數(shù)據(jù)自動標注困難

從數(shù)據(jù)標注角度看，由于歷史上聲紋模型效果一般，再加上上述難點，導致自動化標注很難做到準確。

幻覺問題較為突出

在體驗VibeVoice-ASR模型的過程中，我發(fā)現(xiàn)最明顯的問題是幻覺。測試中，我注意到一個特別的現(xiàn)象：

數(shù)據(jù)中孩子的哭聲極容易觸發(fā)模型的幻覺。

最初我以為是數(shù)據(jù)過長（約30分鐘）導致的，于是特意將哭聲部分單獨截取出來測試，但幻覺依然出現(xiàn)，比如下面的例子：

哭聲語譜圖

哭聲幻覺識別結(jié)果

另外一條數(shù)據(jù)，中間在含糊不清的地方發(fā)生幻覺：

這背后最主要的原因，應該還是接下來要談的數(shù)據(jù)覆蓋問題。

長度真的那么重要嗎？

對于文本大模型，長度等于上下文，上下文窗口的確很重要。但對于語音模型，特別是偏重轉(zhuǎn)錄的模型，在當前階段，長度是否真的如此關(guān)鍵，我持保留態(tài)度。

VibeVoice-ASR提出的理由是：

首先，關(guān)于上下文斷裂問題——純音頻的上下文真能解決這個問題嗎？或許能部分緩解，但對多數(shù)場景來說，可能并非至關(guān)重要。文本層面的上下文或許已足以提升準確率。

其次，工程復雜度方面，文中提到的說話人日志優(yōu)勢我很認同，但這個和長度其實關(guān)系不是特別大，我認為更多的優(yōu)勢來自于識別+說話人的聯(lián)合建模。短句說話人日志的確很困難，但幾分鐘的數(shù)據(jù)進行說話人相關(guān)的工作也沒有太大問題。如果可以把效果做好，后續(xù)通過一個混淆矩陣進行相同說話人的聚類。如果長語音識別確實可以做的好，那么降低系統(tǒng)復雜度的優(yōu)勢肯定是有的。

綜上所述，在當前條件尚不成熟的情況下，過度強調(diào)長度或許并不是最優(yōu)先的。相比長度，我們更應關(guān)注模型的穩(wěn)定性與準確性。當然，如果能處理更長的音頻，那自然是更好的。

“垃圾”數(shù)據(jù)也有價值

從我測試中遇到的幻覺問題，結(jié)合當前主流數(shù)據(jù)清洗流程的做法，會發(fā)現(xiàn)一個現(xiàn)象：

人們常用多個模型交叉驗證，篩選出“有用且正確”的數(shù)據(jù)。

什么是“有用且正確”的數(shù)據(jù)？如果一條數(shù)據(jù)包含文字，且多個模型識別結(jié)果一致，就被認為是有價值且標注正確的。那么，那些被過濾掉的數(shù)據(jù)，其價值又該如何看待？

事實上，它們的價值在今天更應被重視。原因如下：

幸存者偏差

這種方式篩選出的數(shù)據(jù)，都是以往模型基礎(chǔ)上的“幸存者”，數(shù)據(jù)質(zhì)量雖高，但對模型來說難度較低。換句話說，大量這類數(shù)據(jù)對模型能力的提升并無太大增益。如果模型只用這類數(shù)據(jù)訓練，那么無論輸入什么，哪怕是人耳都難以聽清的語音，模型都可能用最大似然的方式“猜”一個最可能的結(jié)果，而不是“承認困難”。一個懂得“示弱”的模型，或許也有其價值。

垃圾”數(shù)據(jù)的價值

所謂“垃圾數(shù)據(jù)”，正是那些被自動標注流程過濾掉的數(shù)據(jù)，它們的價值應當被重新審視。比如我測試數(shù)據(jù)中的哭聲片段，很可能會被清洗流程過濾掉。再加上這類聲音重復性強，更容易導致模型產(chǎn)生幻覺。

在強化學習中，也應該加強對“壞”數(shù)據(jù)如何給予正確反饋的機制。

總結(jié)

非常高興看到越來越多的開源工作，推動模型能力逐步提升。同時我們也應認識到，語音遠非一個已被徹底解決的問題。無論是真實場景的數(shù)據(jù)表現(xiàn)，還是實際落地應用，都還有很長的路要走。隨著AI技術(shù)的進步，市場對更優(yōu)秀的語音交互、合成與理解的需求顯著增加。真心希望有實力的公司能堅持投入，去做那些困難卻正確的事。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.