網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

豆包一聲聲“OK”把羅永浩搞破防，不就是大型現(xiàn)場(chǎng)直播版圖靈測(cè)試

2026-01-01 10:20:35　來(lái)源: 量子位

北京舉報(bào)

分享至

嘻瘋發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

羅永浩的年度科技創(chuàng)新分享大會(huì)，刷屏全網(wǎng)。

復(fù)盤(pán)整場(chǎng)四個(gè)多小時(shí)的直播，大伙兒集體回味討論的焦點(diǎn)似乎就兩個(gè)事兒：

第一件事，不知是因?yàn)檫t到了40多分鐘，還是提前就有謀劃，羅永浩現(xiàn)場(chǎng)宣布給買(mǎi)了票的所有觀眾都退票

第二件事，羅永浩這張網(wǎng)絡(luò)名嘴和豆包之間的“人機(jī)舌戰(zhàn)”竟成最大亮點(diǎn)，火爆出圈。

光看二位的辯題，就已火藥味十足，關(guān)于——錘子手機(jī)是否好用，節(jié)目效果也是拉滿了。

一方，是錘子科技創(chuàng)始人羅永浩，立場(chǎng)鮮明地為自己的昔日作品辯護(hù)“錘子手機(jī)做得挺好的”。

另一方，則是AI豆包，手持?jǐn)?shù)據(jù)與用戶體驗(yàn)，冷靜反駁“錘子手機(jī)做得不怎么樣”。

整場(chǎng)交鋒金句頻出、邏輯對(duì)沖，搞得大伙兒掌聲不斷，笑聲也不斷，被網(wǎng)友調(diào)侃這是“老羅科技春晚上最搞笑名場(chǎng)面”。

老羅也現(xiàn)場(chǎng)直言“現(xiàn)在如果是辯論或吵架，我試過(guò)的所有大模型產(chǎn)品里，豆包是最厲害”、“跟它吵架能吵出心流來(lái)”。

這場(chǎng)辯論，表面上看是二位的斗嘴，實(shí)質(zhì)上，卻是在數(shù)百萬(wàn)觀眾注視下，對(duì)新一代實(shí)時(shí)交互AI能力進(jìn)行的一次極限公測(cè)。

下面，我們就回到現(xiàn)場(chǎng)，拆解每一個(gè)精彩回合。

現(xiàn)場(chǎng)復(fù)盤(pán)，拆解豆包如何“接招”與“出招”

老羅一句“你準(zhǔn)備好了嗎”，話剛落地，豆包幾乎是零延遲響應(yīng)

最開(kāi)始，豆包的語(yǔ)氣還算輕松，拋出一句：“我覺(jué)得錘子手機(jī)可能不算成功吧”。但這句試探性的開(kāi)場(chǎng)，立刻被老羅抓住邏輯漏洞，強(qiáng)勢(shì)打斷：“我沒(méi)說(shuō)成功，我是說(shuō)做得好…它倒閉了我們都知道的。”

老羅的打斷，帶著明確的辯論策略與輕微的情緒施壓。

而豆包的反應(yīng)不僅迅速，其情緒承接和控制能力也立刻顯現(xiàn)，聲調(diào)中帶上了更具對(duì)抗性的“生氣”色彩，反駁道：“那好的標(biāo)準(zhǔn)總不能只看設(shè)計(jì)吧？它的硬件品控出過(guò)不少問(wèn)題。”

老羅再次插話，稱錘子手機(jī)不僅是設(shè)計(jì)做得好，人機(jī)交互也非常好，有一些創(chuàng)新還被各個(gè)大的手機(jī)廠商全都抄了。

笑不活，豆包完全沒(méi)有被帶偏，它在理解老羅邏輯的同時(shí)，精準(zhǔn)記住了此前“品控”的論述，并以此為基礎(chǔ)進(jìn)行組合打擊，拋出一通吐槽：

就算有些交互被借鑒，也不代表產(chǎn)品整體好啊。
你看它的TNT工作站定價(jià)高還得依賴手機(jī)，實(shí)際體驗(yàn)根本沒(méi)達(dá)到預(yù)期，這不就是華而不實(shí)嗎？

視頻鏈接：https://mp.weixin.qq.com/s/PMQPrVV1gLbyilsc-j2gCA

眼看豆包這小刀嘴，句句喇在心窩子上，老羅也是破大防，稱其“就挺討厭的”。

接下來(lái)，直接上花招，要求豆包“每句話加一個(gè)OK”

OK啊，作為一個(gè)AI，對(duì)于用戶發(fā)出的指令，那定然是得遵循的。

陰陽(yáng)怪氣這一塊，豆包也是拿捏了。老羅也是沒(méi)忍住差點(diǎn)笑出聲。

但顯然老羅是沒(méi)玩夠，毫不給豆包留情，吐槽它每一句后面都加OK太死板了，讓它一句夾OK，一句不夾，這樣就更像人了

PS：剛說(shuō)完討厭人家，又罵人家傻，要說(shuō)這不是赤裸裸的AI身攻擊，我是不信的（手動(dòng)狗頭）。

豆包還很有人情味地說(shuō)了一句“行吧那我調(diào)整一下”，像極了無(wú)奈的真·打工人…

然后一秒切換狀態(tài)，繼續(xù)開(kāi)大：

錘子的交互創(chuàng)新是有，但不能掩蓋硬傷啊，比如續(xù)航和發(fā)熱問(wèn)題，當(dāng)年很多用戶吐槽過(guò)的，這對(duì)手機(jī)來(lái)說(shuō)很影響體驗(yàn)的OK。而且它的生態(tài)一直沒(méi)做起來(lái)，很多功能的實(shí)用性其實(shí)打折扣的。就算有亮點(diǎn)，也得綜合看整體表吧OK？

老羅眼看自己敗下陣來(lái)，又開(kāi)始“開(kāi)罵”了：“你用過(guò)嗎？你就在那兒振振有詞的，你怎么用，你也沒(méi)有手”。

（這部分高能片段對(duì)應(yīng)以下視頻2:40-3:40）

視頻鏈接：https://mp.weixin.qq.com/s/PMQPrVV1gLbyilsc-j2gCA

豆包氣勢(shì)上卻一點(diǎn)不輸，表示自己看了大量用戶反饋和評(píng)測(cè)，有依據(jù)的。

有意思的是，老羅追問(wèn)你的數(shù)據(jù)評(píng)測(cè)來(lái)源是什么，豆包脫口而出ZEALER，老羅當(dāng)場(chǎng)暴跳。眾所周知，2014年ZEALER與羅永浩圍繞錘子手機(jī)的直播辯論，被稱為“世紀(jì)約架”。

現(xiàn)場(chǎng)觀眾也是炸了，老羅只能挑刺，說(shuō)豆包忘了加OK了。

這背后，是豆包對(duì)復(fù)雜問(wèn)題和隱含意圖的深刻理解，以及將知識(shí)庫(kù)信息迅速組織成有力論據(jù)的能力。

視頻鏈接：https://mp.weixin.qq.com/s/PMQPrVV1gLbyilsc-j2gCA

最后，老羅問(wèn)豆包是不是訓(xùn)練過(guò)情緒，豆包則回答“沒(méi)有真正的情緒啦，只是在根據(jù)你的話調(diào)整表達(dá)”。

這話，確實(shí)也說(shuō)得沒(méi)毛病。

而且豆包意識(shí)到了話題跑偏，多次試圖將話題引回到辯題，其多輪長(zhǎng)上下文理解能力可見(jiàn)一斑。

視頻鏈接：https://mp.weixin.qq.com/s/PMQPrVV1gLbyilsc-j2gCA

看完整場(chǎng)PK，現(xiàn)場(chǎng)效果是真精彩。但仔細(xì)一想，豆包終究是個(gè)AI，能和一個(gè)以“能說(shuō)會(huì)道”著稱的人類在公開(kāi)直播中辯論還不翻車，這背后沒(méi)有足夠硬的技術(shù)是做不到的。

豆包咋這厲害呢？

豆包的實(shí)時(shí)語(yǔ)音交互能力，一度被視作國(guó)內(nèi)AI語(yǔ)音賽道“獨(dú)一份”的存在。像我身邊的好多朋友、同事，遇事不決就給豆包打電話。

支撐起這種亮眼表現(xiàn)的，正是背后的豆包端到端實(shí)時(shí)語(yǔ)音模型。這款模型發(fā)布初代版本時(shí)就曾引發(fā)行業(yè)廣泛關(guān)注。時(shí)隔一年，團(tuán)隊(duì)對(duì)模型進(jìn)行了多輪迭代與優(yōu)化，主要提升包括以下幾個(gè)維度：

多輪長(zhǎng)上下文理解能力顯著增強(qiáng)：在多輪、快速、話題跳躍的辯論中，豆包能始終緊扣主線，精準(zhǔn)回溯歷史論點(diǎn)，這直接體現(xiàn)了模型在長(zhǎng)程記憶與邏輯關(guān)聯(lián)上的進(jìn)步。
智商、情商擬人表現(xiàn)大幅提升：豆包不僅能進(jìn)行邏輯反駁，更能根據(jù)對(duì)話氛圍和對(duì)方的情緒調(diào)整策略，模型的交互智商大幅超過(guò)之前的版本。
指令遵循的深度和穩(wěn)定性進(jìn)一步提升：能在交互過(guò)程中堅(jiān)持人設(shè)和指令要求，具有深度可定制性。
更好的情緒承接和控制能力：正如老羅察覺(jué)到的，豆包能根據(jù)用戶的語(yǔ)氣和內(nèi)容，實(shí)時(shí)調(diào)整自己的表達(dá)情緒。
更極致低延遲：端到端的響應(yīng)速度無(wú)限逼近真人對(duì)話節(jié)奏。

總之，豆包并非僅僅在“文本對(duì)話”能力上進(jìn)行了升級(jí)，而是通過(guò)底層架構(gòu)的創(chuàng)新，在實(shí)時(shí)性、擬人性、可控性這三個(gè)維度上構(gòu)建了綜合優(yōu)勢(shì)。

昨晚與老羅的辯論，正是這套系統(tǒng)在極限場(chǎng)景下的一次公開(kāi)測(cè)試。

而且我們剛剛發(fā)現(xiàn)，豆包APP已經(jīng)上線了老羅同款功能“一辯高下”。打開(kāi)豆包APP，點(diǎn)選“打電話-選擇情景-一辯高下”，就能體驗(yàn)同款辯論搭子。此外，這一模型版本也即將在火山引擎上線API。

大型現(xiàn)場(chǎng)直播版圖靈測(cè)試

回看這場(chǎng)“人機(jī)舌戰(zhàn)”，它實(shí)際上清晰地標(biāo)記了一個(gè)重要節(jié)點(diǎn)：實(shí)時(shí)交互式AI的能力，已經(jīng)抵達(dá)了可以進(jìn)入實(shí)戰(zhàn)應(yīng)用的關(guān)鍵階段

過(guò)去語(yǔ)音助手是“指令-響應(yīng)”工具，本質(zhì)是功能映射，而現(xiàn)在以豆包為代表的AI，展現(xiàn)出來(lái)了“意圖-理解-博弈-共識(shí)”的認(rèn)知對(duì)齊能力。

AI正在從被動(dòng)執(zhí)行的工具，演進(jìn)為能夠與人類展開(kāi)更深度、復(fù)雜互動(dòng)的“對(duì)話型伙伴”。

與此同時(shí)，評(píng)估AI能力的方式或許也正在被重新定義。實(shí)驗(yàn)室的基準(zhǔn)測(cè)試已然不夠用，真正的考驗(yàn)來(lái)自于更復(fù)雜的現(xiàn)實(shí)場(chǎng)景

像這場(chǎng)辯論，模糊的立場(chǎng)、隱含的價(jià)值判斷、設(shè)陷式的邏輯追問(wèn)，以及持續(xù)施加的情緒壓力，這是一種沒(méi)有標(biāo)準(zhǔn)答案、只有博弈策略的開(kāi)放式“壓力測(cè)試”。

這種能力的突破，也意味著更多實(shí)際應(yīng)用場(chǎng)景將成為可能。

在客服領(lǐng)域，AI將能處理更復(fù)雜的投訴和協(xié)商；在教育場(chǎng)景中，它可以成為更有挑戰(zhàn)性的對(duì)話伙伴；在個(gè)人助理方面，它能理解更模糊的意圖并管理多步驟任務(wù)。更重要的是，這種實(shí)時(shí)、自然的交互方式，將讓人機(jī)協(xié)作變得更加順暢。

豆包與老羅的這一戰(zhàn)，或許就是這個(gè)時(shí)代的“大型現(xiàn)場(chǎng)直播版圖靈測(cè)試”。在人類引以為傲的復(fù)雜實(shí)時(shí)思維博弈領(lǐng)域，AI展現(xiàn)了足以匹配、甚至在某些維度上超越人類的交互深度與邏輯韌性。

最后啊，老羅在直播中還說(shuō)了，對(duì)于那些一出門(mén)吵架就不會(huì)吵，回家之后就會(huì)突然想起來(lái)“哎呀，我要那么吵就好了”的人，那你就需要有個(gè)人跟你一起練。

簡(jiǎn)直就在演我，這就和豆包對(duì)吵去。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.