4月9日,字節(jié)跳動(dòng)宣布推出原生全雙工語(yǔ)音大模型Seeduplex,并已在豆包App全量上線。
該模型采用“邊聽(tīng)邊說(shuō)”的框架設(shè)計(jì),與上一代半雙工豆包端到端語(yǔ)音模型相比,交互的自然感和順暢度有了明顯提升。
全雙工技術(shù)的核心在于讓模型同時(shí)具備聽(tīng)和說(shuō)的能力,不再采用傳統(tǒng)的“你一句我一句”回合制模式。
Seeduplex重點(diǎn)在兩個(gè)方面做了突破,一是精準(zhǔn)抗干擾,模型持續(xù)傾聽(tīng)用戶的聲學(xué)環(huán)境,能夠忽略背景噪音和無(wú)關(guān)對(duì)話,在復(fù)雜場(chǎng)景下誤回復(fù)率和誤打斷率比半雙工模型減少了一半。
二是動(dòng)態(tài)判停,模型結(jié)合語(yǔ)音和語(yǔ)義特征來(lái)判斷用戶意圖,用戶說(shuō)話時(shí)有思考停頓,模型會(huì)耐心等待;用戶說(shuō)完,模型則快速響應(yīng),搶話比例下降了40%。
評(píng)測(cè)數(shù)據(jù)也支撐了這兩項(xiàng)突破的效果。多維度評(píng)測(cè)顯示,Seeduplex在對(duì)話流暢度和節(jié)奏感上均優(yōu)于傳統(tǒng)的半雙工方案以及行業(yè)主流語(yǔ)音通話功能,判停表現(xiàn)提升了8%。
大規(guī)模A/B實(shí)驗(yàn)數(shù)據(jù)顯示,相比此前豆包使用的半雙工模型,Seeduplex上線后用戶通話時(shí)長(zhǎng)、留存等核心指標(biāo)均有正向提升,通話滿意度絕對(duì)值提升了8.34%,用戶反饋中“搶話”“響應(yīng)慢”“誤打斷”等問(wèn)題的提及比例明顯下降。
目前用戶只需將豆包App更新至最新版本,在對(duì)話框選擇“打電話”,即可進(jìn)入語(yǔ)音通話界面體驗(yàn),需選擇桃子音色。
全雙工語(yǔ)音交互并非字節(jié)獨(dú)家布局。2026年以來(lái),騰訊開(kāi)源了70億參數(shù)的端到端語(yǔ)音大模型Covo-Audio,采用分層三模態(tài)架構(gòu),支持全雙工實(shí)時(shí)對(duì)話,并強(qiáng)調(diào)作為GPT-4o語(yǔ)音能力的開(kāi)源替代方案。
阿里云則發(fā)布了Qwen3-Omni全模態(tài)大模型,原生支持文本、圖像、音視頻輸入與實(shí)時(shí)語(yǔ)音輸出,語(yǔ)音交互延遲低至211ms,直接對(duì)標(biāo)Gemini 2.5 Pro。
面壁智能也在近期發(fā)布了行業(yè)首個(gè)全雙工全模態(tài)大模型MiniCPM-o 4.5,以9B精簡(jiǎn)體量實(shí)現(xiàn)語(yǔ)音、視頻、文本的全模態(tài)同步交互。
當(dāng)頭部廠商紛紛將全雙工語(yǔ)音能力推向規(guī)模化落地,一個(gè)值得思考的問(wèn)題是,這類技術(shù)最終會(huì)走向怎樣的交互形態(tài)。
從目前的進(jìn)展來(lái)看,Seeduplex率先實(shí)現(xiàn)了面向大眾用戶的規(guī)模化部署,而Covo-Audio則選擇了完全開(kāi)源的路徑,阿里和面壁的方案更強(qiáng)調(diào)全模態(tài)融合。
各家路徑不同,但終點(diǎn)似乎是一致的,即讓人機(jī)對(duì)話無(wú)限逼近人與人之間的自然交流。這場(chǎng)競(jìng)爭(zhēng)才剛剛開(kāi)始,最終決定勝負(fù)的,可能不只是技術(shù)參數(shù),而是誰(shuí)更懂用戶想要怎樣的對(duì)話節(jié)奏。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.