允中 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
大模型通往現(xiàn)實(shí)世界的“最后三公里”,Agent已然成為最具代表性的入場(chǎng)券。
但當(dāng)下的共識(shí)發(fā)生了微妙的變化:
衡量一個(gè)Agent夠不夠強(qiáng),早已不再看它能不能“答對(duì)問(wèn)題”,而是看它在面對(duì)多輪推理、工具調(diào)用及復(fù)雜協(xié)作時(shí),能否用最短的路徑、最少的交互預(yù)算,穩(wěn)定地搞定任務(wù)
在這一背景下,一個(gè)長(zhǎng)期被行業(yè)忽視的底層命題浮出水面:
- 當(dāng)Agent的框架、工具、數(shù)據(jù)和訓(xùn)練方式都保持一致時(shí),僅僅改變語(yǔ)言模型的生成范式(Autoregressive vs Diffusion),是否會(huì)系統(tǒng)性地改變Agent的規(guī)劃與行為模式?
近日,來(lái)自華為諾亞方舟實(shí)驗(yàn)室、華為先進(jìn)計(jì)算與存儲(chǔ)實(shí)驗(yàn)室、UCL、南洋理工大學(xué)、清華大學(xué)和北京大學(xué)的研究團(tuán)隊(duì),在最新工作《DLLM Agent: See Farther, Run Faster》中,對(duì)這一問(wèn)題給出了迄今為止最“對(duì)照實(shí)驗(yàn)式”的回答。
他們發(fā)現(xiàn),僅僅是把“底座”換成了擴(kuò)散式大模型(DLLM),Agent就像突然開(kāi)了“上帝視角”,執(zhí)行速度不僅提升了30%以上,甚至在部分復(fù)雜任務(wù)中跑出了8倍于傳統(tǒng)AR模型的效率。
文章鏈接:
https://arxiv.org/pdf/2602.07451
官方網(wǎng)頁(yè):
https://noah-dllm.github.io/
核心結(jié)論一覽
在完全相同的Agent工作流、訓(xùn)練數(shù)據(jù)和交互預(yù)算下,研究發(fā)現(xiàn):
- 在準(zhǔn)確率基本持平的前提下,DLLM Agent端到端執(zhí)行速度平均提升30%以上
- 在成功解題的條件下,DLLM Agent使用更少的交互輪次和工具調(diào)用
- DLLM展現(xiàn)出更強(qiáng)的planner能力:更早收斂到正確軌跡、回溯和冗余更少;
- 這種優(yōu)勢(shì)并非僅來(lái)自并行解碼速度,而是體現(xiàn)在Agent級(jí)別的規(guī)劃與決策行為上。
一個(gè)“極端公平”的對(duì)照實(shí)驗(yàn)設(shè)計(jì)
為了避免“框架差異”、“提示工程”、“數(shù)據(jù)不一致”等干擾因素,作者采用了非常嚴(yán)格的對(duì)照實(shí)驗(yàn)設(shè)置:
- 使用同一個(gè)Agent框架:DeepDiver(多智能架構(gòu),層級(jí)式規(guī)劃,https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver);
- 使用同一套工具接口與解析規(guī)則
- 使用完全相同的Agent任務(wù)進(jìn)行繼續(xù)訓(xùn)練;
- 統(tǒng)一context長(zhǎng)度上限(32K)、最大交互輪數(shù)、tool call上限
- 唯一變化因素:Agent背后的生成范式
Autoregressive LLM(AR):openpangu 7b-v1
Diffusion Large Language Model(DLLM):openpangu diffusion 7b,這個(gè)模型是從openpangu 7b-v1續(xù)訓(xùn)得到的,模型的基礎(chǔ)推理能力相似。
這意味著,實(shí)驗(yàn)中觀察到的行為差異,不能歸因于數(shù)據(jù)/模型的基礎(chǔ)能力或workflow,而只能來(lái)自生成范式本身。
不過(guò),考慮到生成范式的不同,針對(duì)多輪長(zhǎng)鏈交互的DLLM訓(xùn)練,作者使用了針對(duì)性調(diào)整的Mask策略和Attention裁剪策略,提升了DLLM Agent訓(xùn)練和推理的一致性。
同樣的終點(diǎn),更短的路徑
在構(gòu)建了對(duì)照平臺(tái)后,研究團(tuán)隊(duì)將關(guān)注點(diǎn)轉(zhuǎn)向了核心指標(biāo):即DLLM這種生成范式的改變,究竟能在多大程度上提升Agent的實(shí)戰(zhàn)表現(xiàn)?
實(shí)驗(yàn)結(jié)果證明,DLLM Agent的優(yōu)勢(shì)并非僅僅來(lái)自“算得快”,更在于它在復(fù)雜規(guī)劃中“走得直”
1、BrowseComp-zh基準(zhǔn)測(cè)試:效率的全面跨越
研究團(tuán)隊(duì)在包含110條任務(wù)的BrowseComp-zh(中文多輪Web瀏覽)子集上,完成了性能測(cè)試。
![]()
通過(guò)對(duì)海量測(cè)試結(jié)果的深度復(fù)盤,研究人員觀察到了幾個(gè)關(guān)鍵規(guī)律:
DLLM Agent在準(zhǔn)確率持平的情況下,
- 平均工具調(diào)用次數(shù)顯著減少;
- Agent軌跡平均更短;
- 端到端延遲下降約30%。
但同時(shí)也暴露出一個(gè)現(xiàn)實(shí)問(wèn)題:原生DLLM更容易產(chǎn)生結(jié)構(gòu)化tool-call錯(cuò)誤。
此外,作者還展示了DLLM Agent和AR Agent在Information Seeker完成問(wèn)題上的分布,可以清晰地看到DLLM Agent在處理問(wèn)題時(shí),往往能以更少的交互次數(shù)完成同樣的任務(wù)。
![]()
2、案例實(shí)錄:8.18倍速度落差的背后
為了更直觀地展現(xiàn)這種“走直路”的能力,可以看一個(gè)典型的多約束檢索案例(涉及動(dòng)物命名+中國(guó)互聯(lián)網(wǎng)公司+團(tuán)隊(duì)合并+軟硬件等多個(gè)維度),query如下:
![]()
結(jié)果發(fā)現(xiàn),盡管AR Agent和DLLM Agent最終都給出了正確答案,但其執(zhí)行邏輯卻展現(xiàn)出巨大的差異,不僅表現(xiàn)在端到端有8.18×的速度差異上(如下表):
![]()
也表現(xiàn)在具體的planner執(zhí)行過(guò)程上——
DLLM Agent的planner質(zhì)量更高,從而在部分case上表現(xiàn)出來(lái)遠(yuǎn)超過(guò)基礎(chǔ)模型的效率差異的端到端性能收益。
![]()
DLLM為何是天生的“強(qiáng)Planner”?
論文并未停留在表面的數(shù)據(jù)對(duì)比,而是深入分析了entropy和confidence與擴(kuò)散過(guò)程中的內(nèi)部動(dòng)態(tài),試圖從生成范式的底層原理,來(lái)解釋DLLM為何在規(guī)劃上更具優(yōu)勢(shì)。
一、Planner Agent:先全局、后細(xì)節(jié)
在任務(wù)拆解階段,DLLM Planner表現(xiàn)出獨(dú)特的兩階段特征,這與人類先構(gòu)思大綱再填補(bǔ)內(nèi)容的思維方式不謀而合:
階段一:并行提取關(guān)鍵信息
用戶問(wèn)題中的4個(gè)核心約束,往往在1–2個(gè)diffusion step內(nèi)就能被同時(shí)識(shí)別。
階段二:逐步細(xì)化任務(wù)結(jié)構(gòu)
在已有全局框架下,再逐步補(bǔ)充具體的邏輯細(xì)節(jié)。
這與AR的差異,主要體現(xiàn)在:
- AR必須按token順序“邊想邊寫”;
- 一旦早期判斷偏差,往往只能通過(guò)多輪todo/re-plan/verification來(lái)修正。
這也直接解釋了,為什么AR Agent在實(shí)驗(yàn)中更容易產(chǎn)生多個(gè)todo_v1/todo_v2冗余規(guī)劃文檔的原因。下圖詳細(xì)解釋了planner在這個(gè)過(guò)程中的變化:
![]()
二、Information Seeker:先定方向,再填參數(shù)
在具體的工具調(diào)用階段,DLLM的生成模式呈現(xiàn)出一種極其穩(wěn)定的結(jié)構(gòu)化傾向:
- 它會(huì)首先確定調(diào)用哪個(gè)工具;
- 隨后,并行生成參數(shù)與細(xì)節(jié);
- 整個(gè)tool-call被視為一個(gè)整體“動(dòng)作塊”,并在生成過(guò)程中被反復(fù)refinement。
相比之下,AR Agent的生成過(guò)程更像是一條不可回頭的流水線:函數(shù)名→參數(shù)1→參數(shù)2→ …
一旦前面的token出現(xiàn)語(yǔ)法或邏輯錯(cuò)誤,AR無(wú)法原地修正,只能寄希望于下一輪tool call來(lái)補(bǔ)救
![]()
三、注意力演化:確定性的迅速鎖定
研究團(tuán)隊(duì)通過(guò)對(duì)擴(kuò)散過(guò)程中Mask Token的熵(Entropy)演化,以及不同階段Attention的集中與分散的分析,得出了更深層的結(jié)論:
- 在DLLM的生成過(guò)程中,高不確定性集中在決策的早期階段
- 一旦高層決策形成,后續(xù)細(xì)節(jié)的生成會(huì)表現(xiàn)出極高的收斂速度
- attention機(jī)制呈現(xiàn)出更明顯的“全局 → 局部”協(xié)調(diào)模式,這與AR僅僅追求token-level的局部最優(yōu)決策,形成了鮮明對(duì)比。
不過(guò),作者并沒(méi)有回避DLLM的不足之處——
Diffusion模型在處理Agent場(chǎng)景時(shí),對(duì)結(jié)構(gòu)化輸出更敏感
通過(guò)設(shè)計(jì)訓(xùn)推一致的Mask策略與Attention策略(如context-clean corruption和span-aware attention mask),可以提升DLLM Agent的推理性能。
這意味著,要充分發(fā)揮DLLM的潛力,并不能將其作為AR的簡(jiǎn)單替代品,而需要針對(duì)Agent的交互場(chǎng)景,重新對(duì)齊接口與訓(xùn)練目標(biāo)
生成范式重塑Agent設(shè)計(jì)維度
這項(xiàng)工作為Agent研究提供了一個(gè)全新的視角——
生成范式本身,會(huì)深刻塑造Agent的行為方式。
在完全相同的數(shù)據(jù)基底與技術(shù)框架下,DLLM Agent展現(xiàn)出了超越傳統(tǒng)自回歸模型的執(zhí)行效率:
- 更早形成全局計(jì)劃
- 更少走彎路
- 更快速度結(jié)束任務(wù)
這使得Diffusion不再只是“另一種生成模型”,而成為構(gòu)建高效Agent的一個(gè)全新設(shè)計(jì)維度。
下方Demo直觀展示了DLLM Agent在效率上的顯著優(yōu)勢(shì)(同類對(duì)比示例可參考原論文中的Case1):

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.