<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      字節Seed最新模型,讓豆包學會閉嘴聽人說話(罵人也更自然了!)

      0
      分享至


      作者 | 董道力
      郵箱 | dongdaoli@pingwest.com

      4 月 9 日,字節跳動旗下 AI 研究團隊 Seed 發布了新的語音模型 Seeduplex,同步完成了在豆包 App 的全量上線。


      語音模型我們已經見過很多了,更新迭代無非是聲音更擬人、延遲更低。而 Seeduplex 的亮點不在這些,而是它文章標題里藏著的一個詞:Full-Duplex,中文翻譯過來叫“全雙工”。

      這幾個字,到底什么意思。

      1

      豆包學會邊說邊聽

      全雙工是通信工程里的術語,簡單來說,就是通信雙方可以同時收發信號,互不干擾。

      比如對講機是半雙工,同一時刻只能一個人說話,說完松開按鈕對方才能開口,而電話是全雙工,兩個人可以同時說話,同時聽。

      豆包此前的語音模型,本質上是對講機邏輯。架構上"聽"和"說"是兩個獨立狀態,不能同時運行。

      模型在輸出語音的時候,麥克風輸入要么被關掉,要么不被處理。判斷你是否說完了的,是一個叫 VAD(語音活動檢測)的獨立模塊,檢測到聲音停了,才切換到"處理"狀態,再生成回復。

      VAD 只看聲音有沒有,不懂你在說什么。你停兩秒想詞,它判定你說完了,旁邊有人咳嗽,它判定你開口了。

      按字節的技術文檔說法,傳統半雙工系統"使用獨立的 VAD 進行機械式音頻分割,由于決策僅限于孤立的聲學特征或局部文本語義特征,這些系統在復雜環境中容易被帶跑,或在用戶停頓時觸發過早響應"。

      Seeduplex 則解決了這個問題。

      模型在說話的同時,持續處理麥克風輸入,實時判斷哪些聲音是用戶在對它說話,哪些是背景噪音,哪些是停頓思考而不是說完了。

      這套判斷交由同一個 LLM 統一完成,聲學特征和語義上下文同時參與決策,不再是幾個獨立模塊各干各的。和此前豆包使用的半雙工框架相比,Seeduplex 的判停 MOS 分提高了 8%,對話流暢度 MOS 分提升了 12%。

      (MOS 是通信領域衡量語音質量的主觀評測標準,本質上是讓真實用戶打分,再取平均值。分數越高,代表用戶感知到的體驗越好。)

      具體指標上,判停延遲降低約 250ms,復雜場景下 AI 搶話比例減少 40%,用戶想打斷時,響應延遲縮短約 300ms,準確率同步提升,復雜聲學干擾場景下,誤回復率和誤打斷率降低一半。


      字節還做了一組真人對話測試,把 Seeduplex、半雙工方案和人人對話放在一起比。判停上 Seeduplex 比半雙工提升了 8%。響應打斷上甚至略好于人人對話的平均水平,因為真實對話里人也會偶爾反應慢(其實半雙工也好于人人)。但整體對話流暢度上,和真人聊天仍有不小的差距。

      1

      全雙工的豆包交互更加自然

      說完技術層面的變化,使用場景上,全雙工的 AI 語音的邊界也有不小擴展。

      比如開車時,車里廣播和導航同時在響,你順口問 AI"這條路堵不堵",Seeduplex 能從混雜的聲音里分辨出哪句是你說的,直接回答,而不是被導航播報帶跑。


      在咖啡館碰到朋友打了個招呼,或者快遞員敲門你隨口應了一聲,AI 能判斷出這些話不是對它說的,不會插進來亂回。

      練英語口語時,你磕磕絆絆說了半句,停下來想詞,改口重說,AI 不會在你停頓的間隙搶話,而是等你把完整的意思說出來,再給反饋。

      這幾個場景有一個共同點:你不需要專門騰出時間、找安靜地方、說完整句子。對話嵌進了日常活動,而不是日常活動為對話讓路。

      全雙工還帶來了一種新的交互可能,AI 開始有了"說話間隙"。以前 AI 說話時你只能等,或者出聲強行打斷,但它停下來不是因為聽懂了你想說什么,而是檢測到有聲音進來了。現在你說"等一下",它能聽懂這是打斷意圖,立刻停下來。

      反過來,當你在說話時,AI 也能給出實時的回應信號,比如"嗯""好的",而不是沉默著等你把話說完。

      這種你來我往的節奏,是半雙工架構物理上做不到的事。

      之前的半雙工 AI 語音的隱性前提是,用戶必須進入"使用 AI 模式"。這個前提把語音 AI 的可用場景鎖在了一個很窄的范圍里。

      全雙工解決了這個前提,讓用戶更愿意和豆包對話了。

      1

      AI 語音助手的技術分野

      全雙工語音 AI 的競爭格局,目前有幾個方向在跑,技術路線差異很大。

      原生音頻全雙工是走得最遠、也最難落地的一條。

      代表是法國 AI 實驗室 Kyutai 在 2024 年 9 月發布的開源模型 Moshi,用同一個底層模型在并行流上同時對用戶音頻和系統音頻建模,并引入"內心獨白"機制,在生成音頻的同時預測對齊文本作為內部推理層,順帶獲得了流式轉寫能力。

      NVIDIA 今年 1 月發布的 PersonaPlex 在此基礎上引入混合提示系統,讓模型可以通過文字定義角色、語音嵌入定義聲音特征,扮演特定人格。

      這個方向的問題是穩定性,學術先驅居多,沒有產品化落地。


      Thinker-Talker分離架構是另一種實現路徑。

      阿里 2025 年 3 月發布的 Qwen2.5-Omni 將推理和輸出拆成 Thinker 與 Talker 兩個組件,前者在文本域完成推理,后者把結果實時轉為音頻,LLM 生態的長上下文、工具調用、檢索注入全部可以復用。

      代價是同時聽說比雙流方案更難實現,端到端延遲高于流式級聯管道方案。


      流式級聯管道(ASR→LLM→TTS)是目前生產環境最普遍的方案。延遲可控在 1 秒以內,工具調用支持最成熟,但本質是輪流制,系統必須等用戶說完才能處理,全雙工能力無從談起。

      Seeduplex 屬于原生音頻全雙工方向,但解決了其他方案沒有解決的問題:在豆包上穩定運行。

      學術環境和產品環境的差距,比多數人想象的大。字節在技術文檔中提到,落地過程中需要解決的包括高并發下的延遲抖動、音頻輸入輸出卡頓和服務穩定性,這些問題在論文里不存在,在數億用戶面前全會出現。

      全雙工解決了能不能同時聽說的問題,說得多自然還需要改進。

      字節自己在文章末尾也承認,與真人對話相比,整體流暢度仍有相當差距。下一步包括多方對話場景優化、引入視覺輸入實現聽看說聯動,以及邊聽邊思考、邊聽邊搜索等方向,每一個都是新的工程難題。

      從對講機到電話,中間有很多年的演化,Seeduplex 是這條路上的一個節點,不是終點。


      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      35分鐘砍0分0板0助!遼籃神射手徹底迷失:趙繼偉看后直搖頭了?

      35分鐘砍0分0板0助!遼籃神射手徹底迷失:趙繼偉看后直搖頭了?

      籃球快餐車
      2026-04-11 05:57:53
      心臟有沒有病,睡覺就知道?心臟不好的人晚上睡覺一般有3個異常

      心臟有沒有病,睡覺就知道?心臟不好的人晚上睡覺一般有3個異常

      白話電影院
      2026-04-10 17:15:55
      瘦得讓人心疼!遲重瑞送別陳麗華泣不成聲,長子的舉動太暖了…

      瘦得讓人心疼!遲重瑞送別陳麗華泣不成聲,長子的舉動太暖了…

      TVB的四小花
      2026-04-10 16:48:17
      阿爾特塔續約談判開出條件:再給我3年,我要看到真金白銀

      阿爾特塔續約談判開出條件:再給我3年,我要看到真金白銀

      體育硬核說
      2026-04-10 08:01:44
      賠光60億!美國軍工巨頭栽了?廣東小城把千元耳機干成幾十塊

      賠光60億!美國軍工巨頭栽了?廣東小城把千元耳機干成幾十塊

      毒sir財經
      2026-04-09 16:06:53
      美伊會談在即,巴首都“紅色警戒”:貴賓配貼身保鏢,萬名軍警執勤,備多個談判地點

      美伊會談在即,巴首都“紅色警戒”:貴賓配貼身保鏢,萬名軍警執勤,備多個談判地點

      紅星新聞
      2026-04-10 16:02:14
      【微特稿】美媒曝光多起疑似涉伊朗戰事“內幕交易”

      【微特稿】美媒曝光多起疑似涉伊朗戰事“內幕交易”

      新華社
      2026-04-10 15:25:30
      為什么很多人接不住真誠?網友:莫名其妙的優越感和傲慢

      為什么很多人接不住真誠?網友:莫名其妙的優越感和傲慢

      夜深愛雜談
      2026-03-24 20:44:52
      買“無印良品”,該怎么避坑

      買“無印良品”,該怎么避坑

      有意思報告
      2026-04-10 19:30:22
      高芙與全紅嬋:當兩位天才少女被網暴,我們到底在期待怎樣的完美

      高芙與全紅嬋:當兩位天才少女被網暴,我們到底在期待怎樣的完美

      網球之家
      2026-04-10 23:04:56
      復旦大學研究:我國財政供養人員6846萬,其中退休人員占四成!

      復旦大學研究:我國財政供養人員6846萬,其中退休人員占四成!

      黯泉
      2026-04-09 17:27:59
      鄭麗文透露午宴吃什么?滿臉藏不住笑:光這一道菜,夠講一輩子!

      鄭麗文透露午宴吃什么?滿臉藏不住笑:光這一道菜,夠講一輩子!

      偵姐有料
      2026-04-10 22:49:58
      “狡黠”不讀jiǎo jié!也不讀jiǎo xié,別再錯,丟不起那人!

      “狡黠”不讀jiǎo jié!也不讀jiǎo xié,別再錯,丟不起那人!

      未央看點
      2026-04-10 00:09:12
      遲重瑞含淚坦言:74歲守偌大宅院與博物館,我直播不是為錢!

      遲重瑞含淚坦言:74歲守偌大宅院與博物館,我直播不是為錢!

      可樂談情感
      2026-04-11 01:15:55
      全程眼突鼓腮,看了觀眾對孫儷的評價,才知張藝謀這句話的含金量

      全程眼突鼓腮,看了觀眾對孫儷的評價,才知張藝謀這句話的含金量

      陳述影視
      2026-04-04 17:53:34
      三觀炸裂!翟欣欣出軌聊天記錄流出,尺度大到咂舌,判12年都嫌少

      三觀炸裂!翟欣欣出軌聊天記錄流出,尺度大到咂舌,判12年都嫌少

      有范又有料
      2025-09-29 14:21:11
      西北大學與賈淺淺的決裂,背后真相驚人!

      西北大學與賈淺淺的決裂,背后真相驚人!

      畫夕
      2026-04-10 13:55:45
      比賴清德還狂的人出現了,如果她當選臺灣領導人,解放軍必定收臺

      比賴清德還狂的人出現了,如果她當選臺灣領導人,解放軍必定收臺

      芳芳歷史燴
      2026-03-29 21:09:31
      孫儷回應《危險關系》收視率不佳,導演點贊:謝謝你拿出了所有的專業

      孫儷回應《危險關系》收視率不佳,導演點贊:謝謝你拿出了所有的專業

      封面新聞
      2026-04-10 21:24:13
      有幸去了趟珠海,被顛覆了三觀,珠海人的生活,讓我大開眼界

      有幸去了趟珠海,被顛覆了三觀,珠海人的生活,讓我大開眼界

      黑哥講現代史
      2026-04-11 03:59:40
      2026-04-11 07:28:49
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      2997文章數 10481關注度
      往期回顧 全部

      科技要聞

      馬斯克狂發大火箭也養不起AI 年虧50億美元

      頭條要聞

      73歲騎友抄近路摔倒身亡 女兒:賠償問題無法達成共識

      頭條要聞

      73歲騎友抄近路摔倒身亡 女兒:賠償問題無法達成共識

      體育要聞

      17歲賺了一百萬美元,25歲被CBA裁員

      娛樂要聞

      黃景瑜王玉雯否認戀情!聚會細節被扒

      財經要聞

      李強主持召開經濟形勢專家和企業家座談會

      汽車要聞

      搭載第二代刀片電池及閃充技術 騰勢N8L閃充版預售35萬起

      態度原創

      親子
      藝術
      健康
      旅游
      公開課

      親子要聞

      時間會融化所有尖銳,只剩平靜

      藝術要聞

      曾熙『仿思翁山水冊』

      干細胞抗衰4大誤區,90%的人都中招

      旅游要聞

      周末來這里!足不出滬體驗首爾韓屋風情

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版