![]()
作者 | 董道力
郵箱 | dongdaoli@pingwest.com
4 月 9 日,字節跳動旗下 AI 研究團隊 Seed 發布了新的語音模型 Seeduplex,同步完成了在豆包 App 的全量上線。
![]()
語音模型我們已經見過很多了,更新迭代無非是聲音更擬人、延遲更低。而 Seeduplex 的亮點不在這些,而是它文章標題里藏著的一個詞:Full-Duplex,中文翻譯過來叫“全雙工”。
這幾個字,到底什么意思。
1
豆包學會邊說邊聽
全雙工是通信工程里的術語,簡單來說,就是通信雙方可以同時收發信號,互不干擾。
比如對講機是半雙工,同一時刻只能一個人說話,說完松開按鈕對方才能開口,而電話是全雙工,兩個人可以同時說話,同時聽。
豆包此前的語音模型,本質上是對講機邏輯。架構上"聽"和"說"是兩個獨立狀態,不能同時運行。
模型在輸出語音的時候,麥克風輸入要么被關掉,要么不被處理。判斷你是否說完了的,是一個叫 VAD(語音活動檢測)的獨立模塊,檢測到聲音停了,才切換到"處理"狀態,再生成回復。
VAD 只看聲音有沒有,不懂你在說什么。你停兩秒想詞,它判定你說完了,旁邊有人咳嗽,它判定你開口了。
按字節的技術文檔說法,傳統半雙工系統"使用獨立的 VAD 進行機械式音頻分割,由于決策僅限于孤立的聲學特征或局部文本語義特征,這些系統在復雜環境中容易被帶跑,或在用戶停頓時觸發過早響應"。
Seeduplex 則解決了這個問題。
模型在說話的同時,持續處理麥克風輸入,實時判斷哪些聲音是用戶在對它說話,哪些是背景噪音,哪些是停頓思考而不是說完了。
這套判斷交由同一個 LLM 統一完成,聲學特征和語義上下文同時參與決策,不再是幾個獨立模塊各干各的。和此前豆包使用的半雙工框架相比,Seeduplex 的判停 MOS 分提高了 8%,對話流暢度 MOS 分提升了 12%。
(MOS 是通信領域衡量語音質量的主觀評測標準,本質上是讓真實用戶打分,再取平均值。分數越高,代表用戶感知到的體驗越好。)
具體指標上,判停延遲降低約 250ms,復雜場景下 AI 搶話比例減少 40%,用戶想打斷時,響應延遲縮短約 300ms,準確率同步提升,復雜聲學干擾場景下,誤回復率和誤打斷率降低一半。
![]()
字節還做了一組真人對話測試,把 Seeduplex、半雙工方案和人人對話放在一起比。判停上 Seeduplex 比半雙工提升了 8%。響應打斷上甚至略好于人人對話的平均水平,因為真實對話里人也會偶爾反應慢(其實半雙工也好于人人)。但整體對話流暢度上,和真人聊天仍有不小的差距。
1
全雙工的豆包交互更加自然
說完技術層面的變化,使用場景上,全雙工的 AI 語音的邊界也有不小擴展。
比如開車時,車里廣播和導航同時在響,你順口問 AI"這條路堵不堵",Seeduplex 能從混雜的聲音里分辨出哪句是你說的,直接回答,而不是被導航播報帶跑。
![]()
在咖啡館碰到朋友打了個招呼,或者快遞員敲門你隨口應了一聲,AI 能判斷出這些話不是對它說的,不會插進來亂回。
練英語口語時,你磕磕絆絆說了半句,停下來想詞,改口重說,AI 不會在你停頓的間隙搶話,而是等你把完整的意思說出來,再給反饋。
這幾個場景有一個共同點:你不需要專門騰出時間、找安靜地方、說完整句子。對話嵌進了日常活動,而不是日常活動為對話讓路。
全雙工還帶來了一種新的交互可能,AI 開始有了"說話間隙"。以前 AI 說話時你只能等,或者出聲強行打斷,但它停下來不是因為聽懂了你想說什么,而是檢測到有聲音進來了。現在你說"等一下",它能聽懂這是打斷意圖,立刻停下來。
反過來,當你在說話時,AI 也能給出實時的回應信號,比如"嗯""好的",而不是沉默著等你把話說完。
這種你來我往的節奏,是半雙工架構物理上做不到的事。
之前的半雙工 AI 語音的隱性前提是,用戶必須進入"使用 AI 模式"。這個前提把語音 AI 的可用場景鎖在了一個很窄的范圍里。
全雙工解決了這個前提,讓用戶更愿意和豆包對話了。
1
AI 語音助手的技術分野
全雙工語音 AI 的競爭格局,目前有幾個方向在跑,技術路線差異很大。
原生音頻全雙工是走得最遠、也最難落地的一條。
代表是法國 AI 實驗室 Kyutai 在 2024 年 9 月發布的開源模型 Moshi,用同一個底層模型在并行流上同時對用戶音頻和系統音頻建模,并引入"內心獨白"機制,在生成音頻的同時預測對齊文本作為內部推理層,順帶獲得了流式轉寫能力。
NVIDIA 今年 1 月發布的 PersonaPlex 在此基礎上引入混合提示系統,讓模型可以通過文字定義角色、語音嵌入定義聲音特征,扮演特定人格。
這個方向的問題是穩定性,學術先驅居多,沒有產品化落地。
![]()
Thinker-Talker分離架構是另一種實現路徑。
阿里 2025 年 3 月發布的 Qwen2.5-Omni 將推理和輸出拆成 Thinker 與 Talker 兩個組件,前者在文本域完成推理,后者把結果實時轉為音頻,LLM 生態的長上下文、工具調用、檢索注入全部可以復用。
代價是同時聽說比雙流方案更難實現,端到端延遲高于流式級聯管道方案。
![]()
流式級聯管道(ASR→LLM→TTS)是目前生產環境最普遍的方案。延遲可控在 1 秒以內,工具調用支持最成熟,但本質是輪流制,系統必須等用戶說完才能處理,全雙工能力無從談起。
Seeduplex 屬于原生音頻全雙工方向,但解決了其他方案沒有解決的問題:在豆包上穩定運行。
學術環境和產品環境的差距,比多數人想象的大。字節在技術文檔中提到,落地過程中需要解決的包括高并發下的延遲抖動、音頻輸入輸出卡頓和服務穩定性,這些問題在論文里不存在,在數億用戶面前全會出現。
全雙工解決了能不能同時聽說的問題,說得多自然還需要改進。
字節自己在文章末尾也承認,與真人對話相比,整體流暢度仍有相當差距。下一步包括多方對話場景優化、引入視覺輸入實現聽看說聯動,以及邊聽邊思考、邊聽邊搜索等方向,每一個都是新的工程難題。
從對講機到電話,中間有很多年的演化,Seeduplex 是這條路上的一個節點,不是終點。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.