速度提升，能力卻暴跌？擴(kuò)散模型做智能體的殘酷真相

2026-02-12 14:19:24　來源: 機(jī)器之心Pro

河北舉報

分享至

基于自回歸語言模型的智能體已在許多場景中展現(xiàn)出完成復(fù)雜任務(wù)的能力，但高昂的推理成本和低下的執(zhí)行效率問題仍然是制約智能體工作流（Agentic Workflow）發(fā)展的關(guān)鍵瓶頸。

與傳統(tǒng)的自回歸式語言模型不同，擴(kuò)散語言模型（Diffusion-Based Language Models）采用并行解碼機(jī)制，顯著提升了生成速度，似乎為突破這一瓶頸帶來了全新的可能性。

現(xiàn)有的關(guān)于 Llada、Dream 等擴(kuò)散語言模型的研究中，這類模型在大幅度提高生成效率的同時，在 MMLU、GSM8K 等基準(zhǔn)任務(wù)上保持了與自回歸語言模型相當(dāng)?shù)耐ㄓ媚芰ΑＨ欢湓谥悄荏w任務(wù)上的表現(xiàn)尚缺乏系統(tǒng)性的評估。

基于這一問題，近期南洋理工大學(xué)的陶大程教授團(tuán)隊聯(lián)合東南大學(xué)、阿里巴巴等發(fā)布了一份綜合評測報告，通過對 2 個自回歸語言模型和 4 個擴(kuò)散語言模型在具身智能體（Embodied Agent）和工具調(diào)用智能體（Tool-Calling Agent）上的一系列實(shí)驗，揭示了一個反直覺的發(fā)現(xiàn)：擴(kuò)散語言模型在智能體能力方面存在系統(tǒng)性缺陷，顯著落后于同規(guī)模的自回歸模型！

這項工作揭示了一個深刻的教訓(xùn)（Bitter Lesson）：盡管擴(kuò)散語言模型實(shí)現(xiàn)了高效的并行推理，但也顯著削弱了其因果推理和反思能力，難以可靠地執(zhí)行具身智能體的長鏈推理任務(wù)；同時，并行解碼機(jī)制使得輸出具有更高的不確定性，這對于精確性要求極高的工具調(diào)用任務(wù)造成了重大挑戰(zhàn)。

論文標(biāo)題：The Bitter Lesson of Diffusion Language Models for Agentic Workflows: AComprehensive Reality Check
論文地址：
https://arxiv.org/pdf/2601.12979
項目地址：
https://coldmist-lu.github.io/DiffuAgent/
代碼地址：
https://github.com/Coldmist-Lu/DiffuAgent/

一、為何失敗？擴(kuò)散模型

難以完成智能體任務(wù)的三大原因

具身智能任務(wù)：因果推理能力不足，陷入重復(fù)循環(huán)

研究基于 AgentBoard 中的三個典型具身智能任務(wù)（AlfWorld、ScienceWorld 和 BabyAI）測試了模型的長鏈規(guī)劃推理能力。結(jié)果顯示，擴(kuò)散語言模型的成功率（Success Rate）和平均任務(wù)進(jìn)度（Progress Rate）均顯著低于自回歸模型，在部分任務(wù)甚至無法產(chǎn)生任何正確樣例。

深入分析發(fā)現(xiàn)，擴(kuò)散模型難以進(jìn)行因果性的推理和實(shí)時反思，頻繁陷入重復(fù)性操作循環(huán)（retry loop，見下圖 a），而自回歸語言模型則極少出現(xiàn)此類問題。

工具調(diào)用任務(wù)：格式輸出混亂，多輪調(diào)用幾乎失效

研究采用伯克利函數(shù)調(diào)用基準(zhǔn)（BFCL v3）進(jìn)行評估，發(fā)現(xiàn)擴(kuò)散語言模型在單輪與多輪工具調(diào)用場景中均落后于自回歸模型。尤其在具有挑戰(zhàn)性的多輪任務(wù)中，擴(kuò)散模型幾乎無法成功完成一次完整調(diào)用工作流。

進(jìn)一步分析表明，擴(kuò)散語言模型更容易產(chǎn)生格式不規(guī)范、語義模糊的調(diào)用輸出（見下圖 b），在要求嚴(yán)格的結(jié)構(gòu)化輸出場景下表現(xiàn)尤為突出。

效率與能力的權(quán)衡：并行解碼的隱性代價

盡管擴(kuò)散語言模型以高吞吐量為賣點(diǎn)，但研究發(fā)現(xiàn)，更高的生成效率并不等同于更強(qiáng)的智能體能力（如下圖 c）。相反，并行解碼機(jī)制會削弱擴(kuò)散語言模型的因果推理能力，并降低其在精確格式化輸出方面的表現(xiàn)。

二、還有救嗎？多智能體

評估框架 DiffuAgent 探尋真實(shí)潛力

由于擴(kuò)散語言模型直接執(zhí)行智能體工作流時會產(chǎn)生大量的失敗案例，這對深入分析其能力帶來了困難。為了探明擴(kuò)散語言模型作為智能體的真實(shí)潛力，研究團(tuán)隊提出了一個多智能體評測框架 DiffuAgent，將復(fù)雜的智能體任務(wù)按能力維度拆解為多個模塊，在智能體執(zhí)行每個步驟的前后進(jìn)行針對性評測：

具身智能任務(wù)的模塊化評估包括：用于定期儲存智能體的運(yùn)行軌跡、提供歷史信息的記憶模塊；以及用于檢測模型是否能主動識別當(dāng)前軌跡中的問題，并及時終止無效嘗試的自驗證模塊。

工具調(diào)用任務(wù)的模塊化評估包括：在產(chǎn)生調(diào)用指令前，預(yù)先篩選出合適的工具候選的工具選擇模塊；以及對不規(guī)范的 JSON 格式進(jìn)行自動糾正的格式修正模塊。

三、能做什么？擴(kuò)散模型

在各智能體模塊中的能力邊界

為深入分析擴(kuò)散語言模型在智能體工作流中的具體表現(xiàn)，研究采用多智能體架構(gòu)設(shè)計：以自回歸語言模型作為主控模塊，將擴(kuò)散語言模型分別應(yīng)用于不同的輔助模塊，從而評估其對智能體整體性能的影響。

記憶模塊：表現(xiàn)相當(dāng)甚至更優(yōu)

當(dāng)擴(kuò)散語言模型作為記憶模塊時，其對智能體準(zhǔn)確性的影響與自回歸模型相當(dāng)，使用 Llada、Dream 等模型時甚至效果優(yōu)于自回歸模型。

自驗證模塊：終止決策更加穩(wěn)健

實(shí)驗發(fā)現(xiàn)，自回歸模型作為自驗證模塊時容易過早終止任務(wù)，即在智能體還未完成充分探索時就提前終止；而擴(kuò)散模型在此場景下的終止判斷更加可靠穩(wěn)定。

工具調(diào)用模塊：選擇能力強(qiáng)，格式修正能力弱

在工具調(diào)用任務(wù)上，擴(kuò)散語言模型能有效地完成工具選擇；但由于其并行生成機(jī)制帶來的模糊性，在需要精確格式的工具編輯任務(wù)上表現(xiàn)欠佳。

核心發(fā)現(xiàn)：并行解碼機(jī)制帶來的權(quán)衡與局限

對擴(kuò)散語言模型在各智能體模塊的表現(xiàn)分析，進(jìn)一步驗證了前文揭示的系統(tǒng)性缺陷：并行生成模式雖然導(dǎo)致了因果推理能力的缺失和動態(tài)決策能力的不足，但其在推理要求低的文本總結(jié)（記憶模塊）和狀態(tài)識別提取（自驗證模塊）等靜態(tài)任務(wù)上表現(xiàn)出色；雖然難以完成高精確性的格式化輸出（格式修正模塊），卻能有效的進(jìn)行信息提?。üぞ哌x擇模塊）。這揭示了擴(kuò)散模型「能力不均衡」的特性：擅長靜態(tài)處理，弱于動態(tài)推理。

四、未來方向：對于

擴(kuò)散語言模型智能體研究的啟示

基于上述系統(tǒng)性評估，本研究從訓(xùn)練、解碼和評估三個維度為擴(kuò)散語言模型的研究者提供以下建議：

訓(xùn)練層面：應(yīng)強(qiáng)化因果推理與解構(gòu)化能力。在預(yù)訓(xùn)練和微調(diào)階段引入具有強(qiáng)因果關(guān)系數(shù)據(jù)，如多步推理任務(wù)和軌跡，并大幅增加結(jié)構(gòu)化內(nèi)容的比重，如 JSON 代碼、API 調(diào)用等，從源頭提升模型對格式規(guī)范的理解，并建立對因果依賴關(guān)系的敏感性。

解碼層面：探索自適應(yīng)的混合生成策略。模型應(yīng)基于任務(wù)特性自適應(yīng)地選擇解碼方式，對關(guān)鍵的推理步驟采用自回歸解碼確保因果連貫，而對于靜態(tài)任務(wù)和需要全局視野的長文本生成，采用并行解碼以提升效率；此外可在解碼過程中引入格式約束和校正來彌補(bǔ)不確定性的短板。

評估層面：建立面向智能體應(yīng)用的基準(zhǔn)體系。當(dāng)前擴(kuò)散模型的評估過度依賴 MMLU、GSM8K 等通用基準(zhǔn)，這些基準(zhǔn)無法反應(yīng)智能體任務(wù)關(guān)于因果推理、多輪交互和工具調(diào)用等需求。研究者應(yīng)報告模型在例如 DiffuAgent 智能體評估框架的結(jié)果，并建立覆蓋真實(shí)應(yīng)用場景的評估體系，避免「跑分高但不實(shí)用」的問題。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.