<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      真實音頻場景,大模型集體掛科!首個原生語音基準MultiChallenge

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】文本領域的大模型滿分選手,換成語音就集體掛科?大模型引以為傲的多輪對話邏輯,在真實人聲面前竟然如此脆弱。Scale AI正式發布首個原生音頻多輪對話基準Audio MultiChallenge,直接撕開了大模型靠合成語音評測維持的優等生假象。實驗顯示,強如Gemini 3 Pro在真實場景下的通過率也僅過半數,而GPT-4o Audio的表現更是令人大跌眼鏡。

      隨著實時語音大模型的普及,人們一度以為AI實時伴侶已經跨越了自然交互的最后一道門檻。

      然而,大模型在語音對話中表現出的聰明,很大程度上源于評測手段的滯后。

      此前,Scale AI推出的MultiChallenge基準憑借對指令保留、推理記憶和自我一致性的嚴苛考察,被公認為評估大模型邏輯長性的黃金標準。

      但長久以來,該基準一直缺少一個真正的音頻原聲版本。

      最近,Scale AI正式補齊了這塊拼圖,發布Audio MultiChallenge,不僅刷新了語音交互的新高度,更揭開了行業內一個公開的秘密:

      由于缺乏原生音頻測試集,模型廠商在發布報告時,往往不得不利用T2S(Text-to-Speech)將文本基準轉換為語音進行評測


      論文鏈接:https://arxiv.org/pdf/2512.14865

      這種做法雖然讓數據看起來很漂亮,卻在無形中給模型加了一層過度美化的濾鏡。



      撕掉語音外殼

      為什么TTS測不出真本事?

      利用TTS轉換來進行評測,實際上是為模型營造了一個完美的無菌環境。

      TTS 生成的語音平滑、規律且高度標準化,徹底過濾掉了人類語言中最重要的特質:日常說話時的各種吞吐、重復、瑣碎停頓以及臨時改口。

      當你對AI說:我想定周一,哦不,是周三的票,等下……還是周二吧。

      這種充滿了邏輯回溯和口語碎片的自然場景,是目前TTS技術極力避免但在現實生活中無處不在的。

      過去,模型穿上了一層由合成語音搭建的語音外殼,本質上是在用文本思維處理潔凈信號。

      而一旦脫離這個外殼,面對Audio MultiChallenge中47名真實說話者錄制的原始音頻,模型的邏輯鏈條便會迅速崩塌。

      論文直言不諱地指出:模型在合成語音上的得分顯著高于真實人聲,這證實了干凈的合成音頻掩蓋了模型在現實世界中的失敗模式(Masking real-world failure modes)。

      Gemini 3 Pro勉強登頂

      GPT-4o意外折戟標題

      Audio MultiChallenge延續了原版的嚴苛邏輯,并針對音頻特性新增了致命的一擊,從指令保留、推理記憶、自我一致性以及核心的Voice Editing(語音編輯) 四個軸向對模型進行綜合考核。

      根據論文公布的排行榜,目前全球頂尖模型的音頻原生能力普遍處于及格線以下:


      實驗數據揭露了一個驚人的落差:Gemini 3 Pro Preview憑借其推理架構在邏輯深度上維持了領先;而GPT-4o Audio Preview在面對真實人類語音時,表現出的魯棒性遠低于預期,通過率甚至只有Gemini的一半左右。

      揭秘三大失敗模式

      語音邏輯的深層鴻溝

      論文通過詳細的錯誤分析,精準捕捉到了模型在音頻模態下的三個軟肋,這些結論直接指出了大模型在語音交互中的底層Gap:

      語音編輯是邏輯黑洞:這是本次基準新增的維度。當用戶在說話過程中中途改口或邏輯回溯時,大多數模型會死板地執行聽到的第一個指令。該維度的平均通過率僅為17.99%,這意味著模型在聽覺上無法有效處理信息的撤回與覆蓋。

      時長驅動的崩潰:模型表現隨著音頻總時長增加而穩步惡化。數據顯示,當對話累計音頻超過8分鐘時,模型的自我一致性得分會驟降至 13% 左右。這意味著目前的語音模型在處理長程語音上下文時,狀態追蹤能力極其薄弱。

      音頻線索的感知缺失:當任務要求模型識別非語義信號(如背景的環境聲、說話人的語氣情緒)來輔助推理時,模型表現比純語義任務下降了 36.5%。這說明模型依然把語音當成脫水的文字在讀,而沒能真正聽懂聲音背后的物理世界。

      結語

      Audio MultiChallenge的發布證明了語音絕不僅是文本的簡單投射,包含著實時狀態跟蹤、情緒理解以及復雜的口語特質處理。

      Scale AI的這一記重錘敲醒了業界:如果我們不能撕掉那層精美的語音外殼,解決模型對自然語音中不完美特征的感知斷層,那么AGI驅動的自由交互,將永遠停留在聽懂單詞卻不懂邏輯的初級階段。

      參考資料:

      https://arxiv.org/pdf/2512.14865

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      亞洲杯首輪就亂了:東南亞球隊領跑,東道主多打一人險勝無緣榜首

      亞洲杯首輪就亂了:東南亞球隊領跑,東道主多打一人險勝無緣榜首

      側身凌空斬
      2026-01-07 04:22:06
      男子聽信“偏方”將5厘米的水蛭塞進尿道,水蛭順著尿道向內爬行“安家”膀胱,開始瘋狂吸血釋放抗凝血物質

      男子聽信“偏方”將5厘米的水蛭塞進尿道,水蛭順著尿道向內爬行“安家”膀胱,開始瘋狂吸血釋放抗凝血物質

      觀威海
      2026-01-07 09:22:09
      岳云鵬宣布退出2026春晚,不再參加

      岳云鵬宣布退出2026春晚,不再參加

      觀察者海風
      2026-01-07 17:11:33
      日本梅毒感染人數持續處于高位,年輕人聚眾曬梅毒,為何會這樣?

      日本梅毒感染人數持續處于高位,年輕人聚眾曬梅毒,為何會這樣?

      之乎者也小魚兒
      2026-01-07 13:51:26
      朝鮮不會成為第二個委內瑞拉!因為朝鮮有兩個后盾

      朝鮮不會成為第二個委內瑞拉!因為朝鮮有兩個后盾

      米君文史
      2026-01-07 10:01:47
      格局打開了!廣汽埃安承諾,向永州足球勝利的隊員一人提供一臺車

      格局打開了!廣汽埃安承諾,向永州足球勝利的隊員一人提供一臺車

      火山詩話
      2026-01-07 07:06:30
      2026年蘋果產品首降來了:iPhone 17降價1300元!疊加國補到手價4699元起

      2026年蘋果產品首降來了:iPhone 17降價1300元!疊加國補到手價4699元起

      快科技
      2026-01-07 19:25:25
      1955年,一名身體強壯的日本女人赤裸上身背著黑色編織袋站在海邊

      1955年,一名身體強壯的日本女人赤裸上身背著黑色編織袋站在海邊

      忠于法紀
      2026-01-07 17:46:09
      馬杜羅穿囚服出庭,西方質問中國有能力保護朋友嗎?結果怕啥來啥

      馬杜羅穿囚服出庭,西方質問中國有能力保護朋友嗎?結果怕啥來啥

      博覽歷史
      2026-01-06 15:08:58
      5-0!U23亞洲杯首場慘案,日本以小打大仍狂勝,中國隊沖首個八強

      5-0!U23亞洲杯首場慘案,日本以小打大仍狂勝,中國隊沖首個八強

      侃球熊弟
      2026-01-07 21:26:10
      U23國足首戰就是生死戰!8年后再沖開門紅,或12年首次連勝

      U23國足首戰就是生死戰!8年后再沖開門紅,或12年首次連勝

      奧拜爾
      2026-01-07 19:51:00
      河南一大爺實拍“素顏巴黎”照片火遍全網,埃菲爾鐵塔被調侃像“電線塔

      河南一大爺實拍“素顏巴黎”照片火遍全網,埃菲爾鐵塔被調侃像“電線塔

      大象新聞
      2026-01-07 19:53:19
      涉多起在菲律賓綁架殺害中國公民案件,“成功商人”施純芳被捕遣返,其妻發聲:不敢相信是認識的他

      涉多起在菲律賓綁架殺害中國公民案件,“成功商人”施純芳被捕遣返,其妻發聲:不敢相信是認識的他

      紅星新聞
      2026-01-07 18:21:34
      廣西一精神小妹結婚,身上多處紋身新郎小她10歲,網友:相當炸裂

      廣西一精神小妹結婚,身上多處紋身新郎小她10歲,網友:相當炸裂

      唐小糖說情感
      2026-01-07 16:37:28
      胡明軒3分!隨著廣東險勝深圳,上海大勝青島,CBA最新積分榜出爐

      胡明軒3分!隨著廣東險勝深圳,上海大勝青島,CBA最新積分榜出爐

      侃球熊弟
      2026-01-07 20:27:53
      中方發布2號公告,斷高市光刻膠后路,日媒:當眾問中國一個問題

      中方發布2號公告,斷高市光刻膠后路,日媒:當眾問中國一個問題

      知法而形
      2026-01-07 16:52:08
      比田樸珺更瀟灑!王石邀請眾人到家打牌聚餐,3位美女暗送秋波

      比田樸珺更瀟灑!王石邀請眾人到家打牌聚餐,3位美女暗送秋波

      攬星河的筆記
      2026-01-07 19:21:08
      檀健次戀情曝光!女方小他16歲,超多同款被扒,兩人回應了

      檀健次戀情曝光!女方小他16歲,超多同款被扒,兩人回應了

      葉公子
      2026-01-07 19:54:40
      塌房的一級演員閆學晶,做錯了兩件事

      塌房的一級演員閆學晶,做錯了兩件事

      李月亮
      2026-01-07 19:31:56
      冬日泉:一場與寒冷的溫柔和解

      冬日泉:一場與寒冷的溫柔和解

      疾跑的小蝸牛
      2026-01-07 20:15:38
      2026-01-08 00:27:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14279文章數 66451關注度
      往期回顧 全部

      科技要聞

      精華!黃仁勛CES記者會:揭秘新款大殺器

      頭條要聞

      委向美移交5000萬桶原油有部分原本銷往中國 中方回應

      頭條要聞

      委向美移交5000萬桶原油有部分原本銷往中國 中方回應

      體育要聞

      賣水果、搬磚的小伙,與哈蘭德爭英超金靴

      娛樂要聞

      《馬背搖籃》首播,革命的樂觀主義故事

      財經要聞

      農大教授科普:無需過度擔憂蔬菜農殘

      汽車要聞

      燃油駕趣+智能電感雙Buff 試駕全新奧迪Q5L

      態度原創

      本地
      時尚
      房產
      藝術
      軍事航空

      本地新聞

      “閩東利劍·惠民安商”高效執行專項行動

      李夢系穿搭,就這么養成了

      房產要聞

      最新!海口二手房,漲價房源突然猛增30%

      藝術要聞

      David Grossmann:不一樣的風景畫

      軍事要聞

      特朗普政府正在討論獲取格陵蘭島的方案 包括軍事選項

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美2区| 家庭激情网| 娇妻玩4p被三个男人伺候| 99久久精品久久久久久婷婷| 久久亚洲精品国产亚洲老地址| 97无码人妻福利免费公开在线视频| 国产成a人片在线观看视频下载| 亚洲AV日韩精品| 色欲久久久天天天精品综合网| 人人做人人澡人人人爽| 久久99日韩国产精品久久99 | 国产制服丝袜在线播放| 肏屄视频在线播放| 少妇久久久被弄到高潮| 狠狠躁夜夜躁人人爽天天5| 日韩欧美视频一区二区三区| 亚洲综合无码一区二区三区不卡 | AV亚洲?电影AV?AV天堂| 娇小萝被两个黑人用半米长| A片A级毛片| 九一色色里| 无码人妻中文字幕| 日韩一级亚洲一午夜免费观看中文版国语版 | 国产精品第12页| 天天综合天天做天天综合| 国内精自视频品线一二区| 狠狠躁天天躁中文字幕| 国产真实乱人偷精品人妻| 无码专区—va亚洲v天堂麻豆| 亚洲嫩模喷白浆| 丝袜美腿一区二区三区| 国产丝袜精品在线| 亚洲色小说| 国产熟女AV| 亚洲精品成人AV无码| 亚洲精品影视| 成人无码中出| 人妻丰满精品一区二区A片| 久久ww| 亚洲中文字幕系列| 色亚洲日韩|