網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

豆包通話不再你一句我一句，字節(jié)全雙工大模型Seeduplex來(lái)了

2026-04-09 15:55:10　來(lái)源: i黑馬

北京舉報(bào)

分享至

4月9日，字節(jié)跳動(dòng)宣布推出原生全雙工語(yǔ)音大模型Seeduplex，并已在豆包App全量上線。

該模型采用“邊聽(tīng)邊說(shuō)”的框架設(shè)計(jì)，與上一代半雙工豆包端到端語(yǔ)音模型相比，交互的自然感和順暢度有了明顯提升。

全雙工技術(shù)的核心在于讓模型同時(shí)具備聽(tīng)和說(shuō)的能力，不再采用傳統(tǒng)的“你一句我一句”回合制模式。

Seeduplex重點(diǎn)在兩個(gè)方面做了突破，一是精準(zhǔn)抗干擾，模型持續(xù)傾聽(tīng)用戶的聲學(xué)環(huán)境，能夠忽略背景噪音和無(wú)關(guān)對(duì)話，在復(fù)雜場(chǎng)景下誤回復(fù)率和誤打斷率比半雙工模型減少了一半。

二是動(dòng)態(tài)判停，模型結(jié)合語(yǔ)音和語(yǔ)義特征來(lái)判斷用戶意圖，用戶說(shuō)話時(shí)有思考停頓，模型會(huì)耐心等待；用戶說(shuō)完，模型則快速響應(yīng)，搶話比例下降了40%。

評(píng)測(cè)數(shù)據(jù)也支撐了這兩項(xiàng)突破的效果。多維度評(píng)測(cè)顯示，Seeduplex在對(duì)話流暢度和節(jié)奏感上均優(yōu)于傳統(tǒng)的半雙工方案以及行業(yè)主流語(yǔ)音通話功能，判停表現(xiàn)提升了8%。

大規(guī)模A/B實(shí)驗(yàn)數(shù)據(jù)顯示，相比此前豆包使用的半雙工模型，Seeduplex上線后用戶通話時(shí)長(zhǎng)、留存等核心指標(biāo)均有正向提升，通話滿意度絕對(duì)值提升了8.34%，用戶反饋中“搶話”“響應(yīng)慢”“誤打斷”等問(wèn)題的提及比例明顯下降。

目前用戶只需將豆包App更新至最新版本，在對(duì)話框選擇“打電話”，即可進(jìn)入語(yǔ)音通話界面體驗(yàn)，需選擇桃子音色。

全雙工語(yǔ)音交互并非字節(jié)獨(dú)家布局。2026年以來(lái)，騰訊開(kāi)源了70億參數(shù)的端到端語(yǔ)音大模型Covo-Audio，采用分層三模態(tài)架構(gòu)，支持全雙工實(shí)時(shí)對(duì)話，并強(qiáng)調(diào)作為GPT-4o語(yǔ)音能力的開(kāi)源替代方案。

阿里云則發(fā)布了Qwen3-Omni全模態(tài)大模型，原生支持文本、圖像、音視頻輸入與實(shí)時(shí)語(yǔ)音輸出，語(yǔ)音交互延遲低至211ms，直接對(duì)標(biāo)Gemini 2.5 Pro。

面壁智能也在近期發(fā)布了行業(yè)首個(gè)全雙工全模態(tài)大模型MiniCPM-o 4.5，以9B精簡(jiǎn)體量實(shí)現(xiàn)語(yǔ)音、視頻、文本的全模態(tài)同步交互。

當(dāng)頭部廠商紛紛將全雙工語(yǔ)音能力推向規(guī)模化落地，一個(gè)值得思考的問(wèn)題是，這類技術(shù)最終會(huì)走向怎樣的交互形態(tài)。

從目前的進(jìn)展來(lái)看，Seeduplex率先實(shí)現(xiàn)了面向大眾用戶的規(guī)模化部署，而Covo-Audio則選擇了完全開(kāi)源的路徑，阿里和面壁的方案更強(qiáng)調(diào)全模態(tài)融合。

各家路徑不同，但終點(diǎn)似乎是一致的，即讓人機(jī)對(duì)話無(wú)限逼近人與人之間的自然交流。這場(chǎng)競(jìng)爭(zhēng)才剛剛開(kāi)始，最終決定勝負(fù)的，可能不只是技術(shù)參數(shù)，而是誰(shuí)更懂用戶想要怎樣的對(duì)話節(jié)奏。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.