<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      速度提升,能力卻暴跌?擴(kuò)散模型做智能體的殘酷真相

      0
      分享至



      基于自回歸語言模型的智能體已在許多場景中展現(xiàn)出完成復(fù)雜任務(wù)的能力,但高昂的推理成本和低下的執(zhí)行效率問題仍然是制約智能體工作流(Agentic Workflow)發(fā)展的關(guān)鍵瓶頸。

      與傳統(tǒng)的自回歸式語言模型不同,擴(kuò)散語言模型(Diffusion-Based Language Models)采用并行解碼機(jī)制,顯著提升了生成速度,似乎為突破這一瓶頸帶來了全新的可能性。

      現(xiàn)有的關(guān)于 Llada、Dream 等擴(kuò)散語言模型的研究中,這類模型在大幅度提高生成效率的同時,在 MMLU、GSM8K 等基準(zhǔn)任務(wù)上保持了與自回歸語言模型相當(dāng)?shù)耐ㄓ媚芰ΑH欢湓谥悄荏w任務(wù)上的表現(xiàn)尚缺乏系統(tǒng)性的評估。

      基于這一問題,近期南洋理工大學(xué)的陶大程教授團(tuán)隊聯(lián)合東南大學(xué)、阿里巴巴等發(fā)布了一份綜合評測報告,通過對 2 個自回歸語言模型和 4 個擴(kuò)散語言模型在具身智能體(Embodied Agent)和工具調(diào)用智能體(Tool-Calling Agent)上的一系列實(shí)驗,揭示了一個反直覺的發(fā)現(xiàn):擴(kuò)散語言模型在智能體能力方面存在系統(tǒng)性缺陷,顯著落后于同規(guī)模的自回歸模型!

      這項工作揭示了一個深刻的教訓(xùn)(Bitter Lesson):盡管擴(kuò)散語言模型實(shí)現(xiàn)了高效的并行推理,但也顯著削弱了其因果推理和反思能力,難以可靠地執(zhí)行具身智能體的長鏈推理任務(wù);同時,并行解碼機(jī)制使得輸出具有更高的不確定性,這對于精確性要求極高的工具調(diào)用任務(wù)造成了重大挑戰(zhàn)。



      • 論文標(biāo)題:The Bitter Lesson of Diffusion Language Models for Agentic Workflows: AComprehensive Reality Check
      • 論文地址:
      • https://arxiv.org/pdf/2601.12979
      • 項目地址:
      • https://coldmist-lu.github.io/DiffuAgent/
      • 代碼地址:
      • https://github.com/Coldmist-Lu/DiffuAgent/



      一、為何失敗?擴(kuò)散模型

      難以完成智能體任務(wù)的三大原因



      • 具身智能任務(wù):因果推理能力不足,陷入重復(fù)循環(huán)

      研究基于 AgentBoard 中的三個典型具身智能任務(wù)(AlfWorld、ScienceWorld 和 BabyAI)測試了模型的長鏈規(guī)劃推理能力。結(jié)果顯示,擴(kuò)散語言模型的成功率(Success Rate)和平均任務(wù)進(jìn)度(Progress Rate)均顯著低于自回歸模型,在部分任務(wù)甚至無法產(chǎn)生任何正確樣例。

      深入分析發(fā)現(xiàn),擴(kuò)散模型難以進(jìn)行因果性的推理和實(shí)時反思,頻繁陷入重復(fù)性操作循環(huán)(retry loop,見下圖 a),而自回歸語言模型則極少出現(xiàn)此類問題。

      • 工具調(diào)用任務(wù):格式輸出混亂,多輪調(diào)用幾乎失效

      研究采用伯克利函數(shù)調(diào)用基準(zhǔn)(BFCL v3)進(jìn)行評估,發(fā)現(xiàn)擴(kuò)散語言模型在單輪與多輪工具調(diào)用場景中均落后于自回歸模型。尤其在具有挑戰(zhàn)性的多輪任務(wù)中,擴(kuò)散模型幾乎無法成功完成一次完整調(diào)用工作流。

      進(jìn)一步分析表明,擴(kuò)散語言模型更容易產(chǎn)生格式不規(guī)范、語義模糊的調(diào)用輸出(見下圖 b),在要求嚴(yán)格的結(jié)構(gòu)化輸出場景下表現(xiàn)尤為突出。

      • 效率與能力的權(quán)衡:并行解碼的隱性代價

      盡管擴(kuò)散語言模型以高吞吐量為賣點(diǎn),但研究發(fā)現(xiàn),更高的生成效率并不等同于更強(qiáng)的智能體能力(如下圖 c)。相反,并行解碼機(jī)制會削弱擴(kuò)散語言模型的因果推理能力,并降低其在精確格式化輸出方面的表現(xiàn)。



      二、還有救嗎?多智能體

      評估框架 DiffuAgent 探尋真實(shí)潛力



      由于擴(kuò)散語言模型直接執(zhí)行智能體工作流時會產(chǎn)生大量的失敗案例,這對深入分析其能力帶來了困難。為了探明擴(kuò)散語言模型作為智能體的真實(shí)潛力,研究團(tuán)隊提出了一個多智能體評測框架 DiffuAgent,將復(fù)雜的智能體任務(wù)按能力維度拆解為多個模塊,在智能體執(zhí)行每個步驟的前后進(jìn)行針對性評測:

      • 具身智能任務(wù)的模塊化評估包括:用于定期儲存智能體的運(yùn)行軌跡、提供歷史信息的記憶模塊;以及用于檢測模型是否能主動識別當(dāng)前軌跡中的問題,并及時終止無效嘗試的自驗證模塊。

      • 工具調(diào)用任務(wù)的模塊化評估包括:在產(chǎn)生調(diào)用指令前,預(yù)先篩選出合適的工具候選的工具選擇模塊;以及對不規(guī)范的 JSON 格式進(jìn)行自動糾正的格式修正模塊。

      三、能做什么?擴(kuò)散模型

      在各智能體模塊中的能力邊界

      為深入分析擴(kuò)散語言模型在智能體工作流中的具體表現(xiàn),研究采用多智能體架構(gòu)設(shè)計:以自回歸語言模型作為主控模塊,將擴(kuò)散語言模型分別應(yīng)用于不同的輔助模塊,從而評估其對智能體整體性能的影響。

      記憶模塊:表現(xiàn)相當(dāng)甚至更優(yōu)



      當(dāng)擴(kuò)散語言模型作為記憶模塊時,其對智能體準(zhǔn)確性的影響與自回歸模型相當(dāng),使用 Llada、Dream 等模型時甚至效果優(yōu)于自回歸模型。

      自驗證模塊:終止決策更加穩(wěn)健



      實(shí)驗發(fā)現(xiàn),自回歸模型作為自驗證模塊時容易過早終止任務(wù),即在智能體還未完成充分探索時就提前終止;而擴(kuò)散模型在此場景下的終止判斷更加可靠穩(wěn)定。

      工具調(diào)用模塊:選擇能力強(qiáng),格式修正能力弱



      在工具調(diào)用任務(wù)上,擴(kuò)散語言模型能有效地完成工具選擇;但由于其并行生成機(jī)制帶來的模糊性,在需要精確格式的工具編輯任務(wù)上表現(xiàn)欠佳。

      核心發(fā)現(xiàn):并行解碼機(jī)制帶來的權(quán)衡與局限

      對擴(kuò)散語言模型在各智能體模塊的表現(xiàn)分析,進(jìn)一步驗證了前文揭示的系統(tǒng)性缺陷:并行生成模式雖然導(dǎo)致了因果推理能力的缺失和動態(tài)決策能力的不足,但其在推理要求低的文本總結(jié)(記憶模塊)和狀態(tài)識別提取(自驗證模塊)等靜態(tài)任務(wù)上表現(xiàn)出色;雖然難以完成高精確性的格式化輸出(格式修正模塊),卻能有效的進(jìn)行信息提?。üぞ哌x擇模塊)。這揭示了擴(kuò)散模型「能力不均衡」的特性:擅長靜態(tài)處理,弱于動態(tài)推理。

      四、未來方向:對于

      擴(kuò)散語言模型智能體研究的啟示

      基于上述系統(tǒng)性評估,本研究從訓(xùn)練、解碼和評估三個維度為擴(kuò)散語言模型的研究者提供以下建議:

      • 訓(xùn)練層面:應(yīng)強(qiáng)化因果推理與解構(gòu)化能力。在預(yù)訓(xùn)練和微調(diào)階段引入具有強(qiáng)因果關(guān)系數(shù)據(jù),如多步推理任務(wù)和軌跡,并大幅增加結(jié)構(gòu)化內(nèi)容的比重,如 JSON 代碼、API 調(diào)用等,從源頭提升模型對格式規(guī)范的理解,并建立對因果依賴關(guān)系的敏感性。

      • 解碼層面:探索自適應(yīng)的混合生成策略。模型應(yīng)基于任務(wù)特性自適應(yīng)地選擇解碼方式,對關(guān)鍵的推理步驟采用自回歸解碼確保因果連貫,而對于靜態(tài)任務(wù)和需要全局視野的長文本生成,采用并行解碼以提升效率;此外可在解碼過程中引入格式約束和校正來彌補(bǔ)不確定性的短板。

      • 評估層面:建立面向智能體應(yīng)用的基準(zhǔn)體系。當(dāng)前擴(kuò)散模型的評估過度依賴 MMLU、GSM8K 等通用基準(zhǔn),這些基準(zhǔn)無法反應(yīng)智能體任務(wù)關(guān)于因果推理、多輪交互和工具調(diào)用等需求。研究者應(yīng)報告模型在例如 DiffuAgent 智能體評估框架的結(jié)果,并建立覆蓋真實(shí)應(yīng)用場景的評估體系,避免「跑分高但不實(shí)用」的問題。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      張靈甫身亡,蔣介石當(dāng)眾將湯恩伯打得滿頭血,死后蔣仍冷言相待

      張靈甫身亡,蔣介石當(dāng)眾將湯恩伯打得滿頭血,死后蔣仍冷言相待

      浩渺青史
      2026-01-04 00:58:05
      53歲柯藍(lán)和瞿穎在泰國過春節(jié),倆人都是李亞鵬前女友,李宗翰也在

      53歲柯藍(lán)和瞿穎在泰國過春節(jié),倆人都是李亞鵬前女友,李宗翰也在

      觀察鑒娛
      2026-02-20 11:30:57
      史上首次!蘋果把主場放上海,3月4日這4款新品,或?qū)㈩嵏残袠I(yè)

      史上首次!蘋果把主場放上海,3月4日這4款新品,或?qū)㈩嵏残袠I(yè)

      小柱解說游戲
      2026-02-18 17:13:12
      尼格買提春晚歸家驚現(xiàn)無綠葉菜,背后隱藏的新疆美食秘密!

      尼格買提春晚歸家驚現(xiàn)無綠葉菜,背后隱藏的新疆美食秘密!

      一盅情懷
      2026-02-21 13:36:27
      玄學(xué)提醒:盡量不要給身邊任何人,分享這3件事。

      玄學(xué)提醒:盡量不要給身邊任何人,分享這3件事。

      木言觀
      2026-01-07 08:23:22
      50歲男人幫扶15歲貧困少女念書,少女長大后上門致謝,開門后他懵了

      50歲男人幫扶15歲貧困少女念書,少女長大后上門致謝,開門后他懵了

      眼淚博物
      2025-08-06 18:20:10
      追覓推出自帶線165W帶屏移動電源:2C+1A,399元

      追覓推出自帶線165W帶屏移動電源:2C+1A,399元

      IT之家
      2026-02-18 19:06:52
      倪萍:父親到死我都沒喊他一聲“爸”,母親的仇恨教育刻骨銘心

      倪萍:父親到死我都沒喊他一聲“爸”,母親的仇恨教育刻骨銘心

      白面書誏
      2025-11-22 17:18:59
      經(jīng)濟(jì)下行,小偷又開始冒頭了,女子火車上熟睡,8000元手機(jī)被偷

      經(jīng)濟(jì)下行,小偷又開始冒頭了,女子火車上熟睡,8000元手機(jī)被偷

      文青大叔說
      2026-02-14 17:08:16
      李澤楷沒想到,為他連生三子沒名分的梁洛施,如今竟會跟他戀愛

      李澤楷沒想到,為他連生三子沒名分的梁洛施,如今竟會跟他戀愛

      老韁科普
      2026-02-20 18:28:39
      上海大叔55歲未婚,住垃圾堆卻要穿名牌,打開冰箱后才知啥叫生活

      上海大叔55歲未婚,住垃圾堆卻要穿名牌,打開冰箱后才知啥叫生活

      寒士之言本尊
      2025-09-08 23:20:45
      武統(tǒng)、和統(tǒng)都沒希望了?臺灣軍事專家:中國已經(jīng)走上了第三條路

      武統(tǒng)、和統(tǒng)都沒希望了?臺灣軍事專家:中國已經(jīng)走上了第三條路

      余們搞笑段子
      2026-02-19 05:03:10
      為什么南宋抵擋不住蒙古軍而越南可以,背后還是體制問題|文史宴

      為什么南宋抵擋不住蒙古軍而越南可以,背后還是體制問題|文史宴

      文史宴
      2026-02-19 19:18:57
      奧迪推出首款高性能PHEV,RS 5僅需3.4秒破百!

      奧迪推出首款高性能PHEV,RS 5僅需3.4秒破百!

      我來自街頭
      2026-02-21 15:28:01
      草原地區(qū)不產(chǎn)茶葉,那為啥古代的游牧民族,對茶葉情有獨(dú)鐘呢?

      草原地區(qū)不產(chǎn)茶葉,那為啥古代的游牧民族,對茶葉情有獨(dú)鐘呢?

      向航說
      2026-02-20 09:20:03
      央行重磅潘石屹再次預(yù)判樓市!若無意外,未來樓市或迎3大走向

      央行重磅潘石屹再次預(yù)判樓市!若無意外,未來樓市或迎3大走向

      巢客HOME
      2026-02-19 09:15:03
      至今仍健在的開國將帥只剩一位,今年103歲高齡,身體依舊硬朗

      至今仍健在的開國將帥只剩一位,今年103歲高齡,身體依舊硬朗

      吳蒂旅行ing
      2026-02-21 12:10:01
      老板娘發(fā)這照片說“茶要泡開 人要想開。”她什么意思?怎么回答

      太急張三瘋
      2026-02-21 13:30:06

      東北男子養(yǎng)鹿破產(chǎn),賭氣放生了30頭鹿,8年后上山,眼前一幕卻讓他淚崩了...

      東北男子養(yǎng)鹿破產(chǎn),賭氣放生了30頭鹿,8年后上山,眼前一幕卻讓他淚崩了...

      品讀時刻
      2026-02-14 09:03:05
      致命一擊!俄羅斯,命脈被掐住了!

      致命一擊!俄羅斯,命脈被掐住了!

      大嘴說天下
      2026-02-18 19:48:42
      2026-02-21 16:24:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12325文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認(rèn):系一家人

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認(rèn):系一家人

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關(guān)系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經(jīng)要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔(dān)當(dāng)”來了 方程豹首款轎車路跑信息曝光

      態(tài)度原創(chuàng)

      教育
      時尚
      旅游
      親子
      游戲

      教育要聞

      新春走基層 | 慢飛天使捏出 “年的形狀”

      2026紐約秋冬時裝周,在春天開啟美的新故事!

      旅游要聞

      海南“封關(guān)”后首個春節(jié):三亞入境游暴增3倍,外國游客涌入“環(huán)游世界”

      親子要聞

      假期別讓手機(jī)悄悄傷害孩子大腦!

      2026秋季3A大作扎堆!《影之刃零》獨(dú)挑"各大門派"

      無障礙瀏覽 進(jìn)入關(guān)懷版