網易首頁 > 網易號 > 正文申請入駐

字節Seed最新模型，讓豆包學會閉嘴聽人說話（罵人也更自然了！）

2026-04-10 09:48:09　來源: 硅星人

北京舉報

分享至

作者｜董道力
郵箱｜ dongdaoli@pingwest.com

4 月 9 日，字節跳動旗下 AI 研究團隊 Seed 發布了新的語音模型 Seeduplex，同步完成了在豆包 App 的全量上線。

語音模型我們已經見過很多了，更新迭代無非是聲音更擬人、延遲更低。而 Seeduplex 的亮點不在這些，而是它文章標題里藏著的一個詞：Full-Duplex，中文翻譯過來叫“全雙工”。

這幾個字，到底什么意思。

豆包學會邊說邊聽

全雙工是通信工程里的術語，簡單來說，就是通信雙方可以同時收發信號，互不干擾。

比如對講機是半雙工，同一時刻只能一個人說話，說完松開按鈕對方才能開口，而電話是全雙工，兩個人可以同時說話，同時聽。

豆包此前的語音模型，本質上是對講機邏輯。架構上"聽"和"說"是兩個獨立狀態，不能同時運行。

模型在輸出語音的時候，麥克風輸入要么被關掉，要么不被處理。判斷你是否說完了的，是一個叫 VAD（語音活動檢測）的獨立模塊，檢測到聲音停了，才切換到"處理"狀態，再生成回復。

VAD 只看聲音有沒有，不懂你在說什么。你停兩秒想詞，它判定你說完了，旁邊有人咳嗽，它判定你開口了。

按字節的技術文檔說法，傳統半雙工系統"使用獨立的 VAD 進行機械式音頻分割，由于決策僅限于孤立的聲學特征或局部文本語義特征，這些系統在復雜環境中容易被帶跑，或在用戶停頓時觸發過早響應"。

Seeduplex 則解決了這個問題。

模型在說話的同時，持續處理麥克風輸入，實時判斷哪些聲音是用戶在對它說話，哪些是背景噪音，哪些是停頓思考而不是說完了。

這套判斷交由同一個 LLM 統一完成，聲學特征和語義上下文同時參與決策，不再是幾個獨立模塊各干各的。和此前豆包使用的半雙工框架相比，Seeduplex 的判停 MOS 分提高了 8%，對話流暢度 MOS 分提升了 12%。

（MOS 是通信領域衡量語音質量的主觀評測標準，本質上是讓真實用戶打分，再取平均值。分數越高，代表用戶感知到的體驗越好。)

具體指標上，判停延遲降低約 250ms，復雜場景下 AI 搶話比例減少 40%，用戶想打斷時，響應延遲縮短約 300ms，準確率同步提升，復雜聲學干擾場景下，誤回復率和誤打斷率降低一半。

字節還做了一組真人對話測試，把 Seeduplex、半雙工方案和人人對話放在一起比。判停上 Seeduplex 比半雙工提升了 8%。響應打斷上甚至略好于人人對話的平均水平，因為真實對話里人也會偶爾反應慢（其實半雙工也好于人人）。但整體對話流暢度上，和真人聊天仍有不小的差距。

全雙工的豆包交互更加自然

說完技術層面的變化，使用場景上，全雙工的 AI 語音的邊界也有不小擴展。

比如開車時，車里廣播和導航同時在響，你順口問 AI"這條路堵不堵"，Seeduplex 能從混雜的聲音里分辨出哪句是你說的，直接回答，而不是被導航播報帶跑。

在咖啡館碰到朋友打了個招呼，或者快遞員敲門你隨口應了一聲，AI 能判斷出這些話不是對它說的，不會插進來亂回。

練英語口語時，你磕磕絆絆說了半句，停下來想詞，改口重說，AI 不會在你停頓的間隙搶話，而是等你把完整的意思說出來，再給反饋。

這幾個場景有一個共同點：你不需要專門騰出時間、找安靜地方、說完整句子。對話嵌進了日常活動，而不是日常活動為對話讓路。

全雙工還帶來了一種新的交互可能，AI 開始有了"說話間隙"。以前 AI 說話時你只能等，或者出聲強行打斷，但它停下來不是因為聽懂了你想說什么，而是檢測到有聲音進來了。現在你說"等一下"，它能聽懂這是打斷意圖，立刻停下來。

反過來，當你在說話時，AI 也能給出實時的回應信號，比如"嗯""好的"，而不是沉默著等你把話說完。

這種你來我往的節奏，是半雙工架構物理上做不到的事。

之前的半雙工 AI 語音的隱性前提是，用戶必須進入"使用 AI 模式"。這個前提把語音 AI 的可用場景鎖在了一個很窄的范圍里。

全雙工解決了這個前提，讓用戶更愿意和豆包對話了。

AI 語音助手的技術分野

全雙工語音 AI 的競爭格局，目前有幾個方向在跑，技術路線差異很大。

原生音頻全雙工是走得最遠、也最難落地的一條。

代表是法國 AI 實驗室 Kyutai 在 2024 年 9 月發布的開源模型 Moshi，用同一個底層模型在并行流上同時對用戶音頻和系統音頻建模，并引入"內心獨白"機制，在生成音頻的同時預測對齊文本作為內部推理層，順帶獲得了流式轉寫能力。

NVIDIA 今年 1 月發布的 PersonaPlex 在此基礎上引入混合提示系統，讓模型可以通過文字定義角色、語音嵌入定義聲音特征，扮演特定人格。

這個方向的問題是穩定性，學術先驅居多，沒有產品化落地。

Thinker-Talker分離架構是另一種實現路徑。

阿里 2025 年 3 月發布的 Qwen2.5-Omni 將推理和輸出拆成 Thinker 與 Talker 兩個組件，前者在文本域完成推理，后者把結果實時轉為音頻，LLM 生態的長上下文、工具調用、檢索注入全部可以復用。

代價是同時聽說比雙流方案更難實現，端到端延遲高于流式級聯管道方案。

流式級聯管道（ASR→LLM→TTS）是目前生產環境最普遍的方案。延遲可控在 1 秒以內，工具調用支持最成熟，但本質是輪流制，系統必須等用戶說完才能處理，全雙工能力無從談起。

Seeduplex 屬于原生音頻全雙工方向，但解決了其他方案沒有解決的問題：在豆包上穩定運行。

學術環境和產品環境的差距，比多數人想象的大。字節在技術文檔中提到，落地過程中需要解決的包括高并發下的延遲抖動、音頻輸入輸出卡頓和服務穩定性，這些問題在論文里不存在，在數億用戶面前全會出現。

全雙工解決了能不能同時聽說的問題，說得多自然還需要改進。

字節自己在文章末尾也承認，與真人對話相比，整體流暢度仍有相當差距。下一步包括多方對話場景優化、引入視覺輸入實現聽看說聯動，以及邊聽邊思考、邊聽邊搜索等方向，每一個都是新的工程難題。

從對講機到電話，中間有很多年的演化，Seeduplex 是這條路上的一個節點，不是終點。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AI語音交互，催生了一個“剛需”品類

36氪 2026-04-03 11:01:20
3 跟貼 3
林俊旸點贊，干翻字節Seedance 2.0的“歡樂馬”模型，阿里造？

智東西 2026-04-09 23:55:18
20 跟貼 20

庫里被「采訪」？別慌！螞蟻AI鑒真拿下CVPR 2026冠軍，專治黑產

機器之心Pro 2026-04-10 14:32:23
0 跟貼 0

HappyHorse之后還有更多牌？阿里在多模態戰場打出“回馬槍”

華爾街見聞官方 2026-04-10 16:40:05
2 跟貼 2
阿里千億 AI 目標：算得過來嗎？芯片、政企、Token 三重卡位決定成敗

鈦媒體APP 2026-04-10 11:58:19
0 跟貼 0

面壁智能開源全模態模型MiniCPM-o4.5，邊看邊聽還能主動搶答

量子位 2026-02-05 23:20:12
0 跟貼 0

字節Seed用化學思想搞AI，把DeepSeek-R1的腦回路拆成了分子結構

量子位 2026-02-24 15:21:52
0 跟貼 0
神秘新王“歡樂馬”，原來是阿里ATH大模型新副本首秀

智東西 2026-04-11 00:17:44
2 跟貼 2

以人為本的AI對用戶而言才是最有用的AI

每日經濟新聞 2026-03-14 13:16:04
0 跟貼 0
龍蝦連Gemma 4，只需三步，谷歌官方教程出爐，不再花錢買token

機器之心Pro 2026-04-10 18:36:11
44 跟貼 44
一場全面入侵，字節被逼急了

虎嗅APP 2026-04-09 15:28:05
17 跟貼 17
男子參加張靚穎大西洋城演唱會，拿到麥克風太緊張都不會唱歌了

南陽日報 2026-04-08 18:33:18
21 跟貼 21
你再狗叫一個？奇葩新游公布：麥克風狗叫對戰

游民星空 2026-04-09 16:05:22
0 跟貼 0
和豆包玩猜歷史人物！聽到第一個我就繃不住了，這誰能忍住不笑！

下福新鮮事 2026-04-09 03:21:58
0 跟貼 0
取代龍蝦的是愛馬仕？狂攬4萬星的Hermes Agent，不只是OpenClaw平替

AppSo 2026-04-10 17:26:30
2 跟貼 2
伊高官:若美約束不好以色列這條瘋狗伊朗將幫它一把

中國新聞周刊 2026-04-10 18:41:40
18249 跟貼 18249
豆包模擬考研復試翻車現場…自以為答得完美，實則全程踩雷

正兒八經的陳老師 2026-04-09 19:10:30
1 跟貼 1
網約車司機開車時用麥克風唱歌被交警處罰

天目看看 2026-04-09 08:15:20
0 跟貼 0
男子提醒：使用豆包時別亂聊天：“后面是有審核員的，亂發太多內容當心被封號”，網友：難怪我問多了，它好像越來越煩了

蓬勃資訊 2026-04-08 16:07:59
5 跟貼 5
豆包自稱"我不是代碼是真人"，真相太意外！

主持人揚帆 2026-04-10 16:39:22
0 跟貼 0
抽出了泡白的手，在兄弟酒杯洗了洗手，拿起話筒唱朋友的歌！

365天周游世界旅游 2026-04-10 08:57:39
0 跟貼 0
用戶的錢就是這樣沒的

阿萌講電影 2026-04-09 09:11:39
1 跟貼 1
萌娃的日常生活，他正在自己玩話筒，網友帶著帽子真可愛！

爆笑論 2026-04-09 15:33:23
1 跟貼 1
日本“降級”中日關系中方表態

參考消息 2026-04-10 14:22:31
112 跟貼 112
中東越打越虧，美國高官直言：美國對中國的認知越來越模糊

啟迪你的思維 2026-04-11 03:49:18
0 跟貼 0
仍有地方弄虛作假！督察組進駐后，發現了不少問題

政知新媒體 2026-04-11 06:19:51
88 跟貼 88
“十多年沒遇到過這樣的！”浙江房東崩潰，租客兩年藏近千斤尿液在房間，柜子全被塞滿

揚子晚報 2026-04-10 11:06:50
4979 跟貼 4979
我跟手機里的小姑娘聊了一下午，老伴吃醋了

溫歲書 2026-04-09 19:46:12
0 跟貼 0
探索無限：2的根號迭代之旅

文明不過星感冒v 2026-04-08 10:40:09
0 跟貼 0
誰還沒有知更鳥麥克風手殘黨友好

萌兔巧手 2026-04-09 10:24:29
1 跟貼 1
Lowry去年采訪翻車，今年改口夸McIlroy：他能連贏4場

競技風云錄 2026-04-10 18:50:00
0 跟貼 0
去除豆包視頻水印的方法，豆包視頻帶有 logo 水印怎么去除

百靈鳥去水印 2026-04-10 15:59:02
0 跟貼 0
一根魚刺，戳穿了中產最不敢說的真相

拾榴詢財 2026-04-10 13:05:08
0 跟貼 0
智能交互與安全防護實現雙線進階，別克至境E7行業首發新一代豆包大模型

上觀新聞 2026-04-10 15:52:07
0 跟貼 0
“祖先給的特權”，河南網友稱祖墳在景區祭祖免票，景區回應：沒過檢票口，一般是附近住戶的祖墳

大風新聞 2026-04-06 15:06:12
3913 跟貼 3913
張凌赫190cm人間邁巴赫建模神雙頂奢加身，顏值演技智商封神

娛樂在一起668 2026-04-10 07:00:30
2 跟貼 2
男生給老人安裝了一個按鈕，按一下就能給子女撥電話

銳眼新聞 2026-04-09 17:30:01
0 跟貼 0
又一國產模型黑馬出世，追平Gemini 2.5 Pro，空間編輯反超視頻模型？

智東西 2026-04-10 20:36:22
0 跟貼 0
城市更新顛覆購房邏輯，財富縮水風險

紀超講樓市 2026-04-08 06:16:42
0 跟貼 0
組裝川崎忍者模型套件

制造科技 2026-04-09 19:07:20
16 跟貼 16

硅星人

硅（Si）是創造未來的基礎，歡迎來到這個星球。

2997文章數 10481關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

藝術

健康

旅游

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

字節Seed最新模型，讓豆包學會閉嘴聽人說話（罵人也更自然了！）

馬斯克狂發大火箭也養不起AI 年虧50億美元

73歲騎友抄近路摔倒身亡 女兒：賠償問題無法達成共識

73歲騎友抄近路摔倒身亡 女兒：賠償問題無法達成共識

17歲賺了一百萬美元，25歲被CBA裁員

黃景瑜王玉雯否認戀情！聚會細節被扒

李強主持召開經濟形勢專家和企業家座談會

搭載第二代刀片電池及閃充技術 騰勢N8L閃充版預售35萬起

態度原創

時間會融化所有尖銳，只剩平靜

曾熙『仿思翁山水冊』

干細胞抗衰4大誤區,90%的人都中招

周末來這里！足不出滬體驗首爾韓屋風情

73歲騎友抄近路摔倒身亡女兒：賠償問題無法達成共識

73歲騎友抄近路摔倒身亡女兒：賠償問題無法達成共識

搭載第二代刀片電池及閃充技術騰勢N8L閃充版預售35萬起