![]()
全雙工模式才是王道
撰文/陳鄧新
編輯/李 季
排版/Annalee
豆包大模型,又上新了。
2026年4月9日,原生全雙工語音大模型Seeduplex正式發布,相比上一代半雙工豆包端到端語音模型,新模型基于“邊聽邊說”的全新框架設計,交互體驗的自然感、順暢度大幅提升,目前已在豆包App全量上線。
這意味著,前沿的全雙工語音技術,第一次實現商業規模化落地。
而依托全雙工語音技術,豆包的語音交互不再是機械式的一問一答,而是收放自如的聊天搭子,活人感躍然紙上。
顯而易見,AI應用“一哥”如虎添翼了。
活人感才是語音交互的核心競爭力
語音交互,成為互聯網競爭的主戰場。
起初,人類觸達數字世界交互方式為命令行;之后,圖形界面接棒,造就了PC的輝煌;等到觸控起勢,移動互聯網的序幕也隨之拉開。
如今,交互方式又有了新范式。
AI時代,語音交互走到了C位,不再是一個可有可無的輔助功能,而是提升交互效率、改變交互形態的核心載體。
皆因,語言才是人類表達意圖的最短路徑。
如此一來,基于AI技術的語音交互正在打破現實世界與數字世界的交流壁壘,通過顛覆使用習慣的方式完成交互躍遷。
問題在于,傳統的語音交互是半雙工模式。
半雙工模式之下,同一個時間段內只有一個動作發生,用戶說話了則AI只能聽著,反之亦然,這個過程一板一眼,不容絲毫偏差。
通俗易懂地說,AI在語音交互的過程中缺乏活人感。
此背景下,哪怕語音識別與自然語言理解兩大技術成熟,語音識別準確率接近人類水平,也沒有讓傳統的語音交互出圈。
一名互聯網觀察人士告訴鋅刻度:“半雙工模式無法打斷正在進行的說話、難以過濾復雜環境的雜音、沒法感知用戶的正常停頓等,容易出現搶話、跑題等令人尷尬的問題,嚴重影響了用戶的交互體驗,直白地說就是AI彬彬有禮卻無法與用戶共情。”
![]()
Seeduplex的全雙工模式,則有效解決了上述問題。
全雙工之下,同一個時間段內用戶與AI可以雙向交流,即用戶可以隨時插話與打斷,AI也可以持續傾聽與及時響應。
在此過程中,Seeduplex進行全局聲學環境感知,精準篩選出用戶與模型交互的真正聲音,過濾背景帶來的各種干擾聲,從而將誤回復率與誤打斷率降低了一半,用戶無需提高音量或尋找安靜角落,即可進行高質量的對話。
精準抗干擾之外,Seeduplex還具備動態判停能力。
通過聯合語音和語義特征,綜合判斷用戶意圖,面對用戶的思考猶豫,模型可以耐心傾聽;在用戶說完后,又可以快速響應,從而搶話的概率相對降低了40%。
對此,一名專業人士表示:“通過語速、語調、語義的綜合考慮,動態判停可以共情式傾聽用戶,理解用戶的停頓到底是在思考,還是真正把話說完了,這才是Seeduplex最大的競爭優勢。”
一言以蔽之,Seeduplex成為一個有溫度、有深度、有人格、有靈魂的交互主體,依托活人感走了一條差異化競爭的道路。
畢竟,活人感才是語音交互的核心競爭力。
率先突破的為何是豆包
全雙工模式堪稱降維打擊,自然成為行業追逐的焦點,可唯獨豆包大模型成為行業“吃螃蟹”的第一人,并非偶然。
一方面,語音交互一直是豆包的底色。
自推出以來,語音交互就成為豆包用戶體驗的核心支柱,其即時互動感頗受年輕人的青睞,進而營造了高粘性、正循環的社交氛圍。
由此一來,豆包成為AI應用賽道的“一哥”。
QuestMobile的數據顯示,截至2025年9月,AI應用市場移動端、PC端月活躍用戶數分別達到7.29億、2.00億;其中,排名第一的豆包的月活躍用戶規模為1.72億。
華熙生物董事長趙燕表示:“豆包這些AI,是生活的一部分,工作的一部分。重復、需要耗時耗力的一些事兒,我會讓豆包來做。AI給我們帶來的是業務的重塑,原來可能幾十個人的團隊要干兩年,現在可能(只需要)五個小時。”
正因為如此,豆包的語音交互生態每天都在源源不斷產出海量的真實數據,為孵化Seeduplex提供了肥沃的土壤,其訓練語料的優勢無法比擬。
另外一方面,豆包大模型的底蘊深厚。
豆包大模型2024年5月的日均Token使用量為1200億,到了2026年3月日均Token使用量已突破120萬億,足足增長了1000倍。
須知,Token使用量是衡量AI發展速度的核心指標。
這意味著,豆包大模型不斷技術迭代,從可用走向好用,為半雙工豆包端到端語音模型迭代為原生全雙工語音大模型Seeduplex創造了良好的條件。
火山引擎總裁譚待表示:“只有大的調用量,才能打磨出好模型。只有在真實場景中落地,用的人越多,調用量越大,模型才會越來越好。”
![]()
具體來看,為了讓全雙工成功落地,Seeduplex在模型框架設計、算法優化、工程性能與穩定性上下了一番功夫。
譬如,在模型框架設計上,放棄了經典的“ASR(語音轉文本)→LLM(大腦思考生成回復)→TTS(語音合成)”模型架構,設計了更貼合語音實時對話原生特性的模型架構,使模型能夠直接從數據中學習語音與語義的一體化表達和節奏控制,顯著提升了交互自然度。
再譬如,活人感與對話智能、超低延遲、對話節奏控制、強抗干擾能力與指向性理解等指標息息相關,因而需要依托海量語音數據進行大規模預訓練,并通過多能力、多任務的后訓練體系,才可以達到多維能力協同進化的目的。
合力之下,Seeduplex攻克了全雙工語音的數據構建、超低時延與模型效果協同優化等核心技術難題,打開語音交互的新邊界。
測試數據顯示,相比上一代半雙工豆包端到端語音模型,Seeduplex的判停MOS分提高了8%,對話流暢度MOS分提升了12%。
智能座艙邁入語音交互時代
隨著語音交互從半雙工走向全雙工,可以進一步賦能教育、直播、營銷、客服等行業,釋放更大的生產力。
上述行業有一個共同的特征,即在語音交互的過程中需要避免機械感,從而增加用戶的沉浸感與參與感,最終提高用戶的信任度與滿意度。
不難看出,Seeduplex的出現不啻一場及時雨。
尤為值得一提的是,隨著汽車全面擁抱智能座艙,汽車正在撕下代步的標簽,成為真正意義上的“第三空間”,也成為語音交互落地的最佳場景。
事實上,無需觸控、按鍵、旋轉,通過口頭指令即可控制打開音樂、降低車窗、調整溫度、設置導航等日常操作,因而語音交互逐漸取代了傳統的人機界面。
不難看出,語音大模型成為智能座艙比拼的關鍵所在。
佐思汽研的數據顯示,車載大模型2025年1月的滲透率為10.8%,到了2025年12月已攀升至38.6%,走高的勢頭肉眼可見。
其中,豆包大模型拔得頭籌。
公開資料顯示,豆包大模型覆蓋賽力斯、吉利汽車、長城汽車、捷途汽車、智己汽車等20余家車企,2025 年新上市車型搭載量位居行業第一。
以別克至境E7為例,其與豆包大模型進行了全鏈路共創模式,在高速噪聲、多音區等復雜環境下,將語音識別準確率提升至98%,復雜指令理解超過95%。
![]()
火山引擎汽車總經理楊立偉表示:“我們的合作,不是‘大模型上車’,而是‘大模型為車定制’。”
眼下,Seeduplex助陣,豆包可以更好地適配智能座艙場景,既能在低延遲條件下實現對話,克服聽不準、聽不清、反應遲鈍等傳統痛點,也能通過用戶的語調、語速、語義,判斷用戶的情緒,并給出積極的回應,成為一個可以提供情緒價值的開車搭子。
簡而言之,豆包從助手化身為助理。
與此同時,在Seeduplex賦能之下,智能座艙可以“像人一樣思考、像人一樣交流、像人一樣成長”,有了更大的想象空間與商業價值。
總而言之,全雙工語音技術走出了實驗室,全面領先當下主流的半雙工語音技術,未來不但會重新定義AI應用的用戶體驗,還可能孕育全新的語音交互商業模式。
那么,豆包有了更大的勢能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.