<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      華為發(fā)布業(yè)界首個(gè)擴(kuò)散語(yǔ)言模型Agent,部分場(chǎng)景提速8倍!

      0
      分享至

      允中 發(fā)自 凹非寺
      量子位 | 公眾號(hào) QbitAI

      大模型通往現(xiàn)實(shí)世界的“最后三公里”,Agent已然成為最具代表性的入場(chǎng)券。

      但當(dāng)下的共識(shí)發(fā)生了微妙的變化:

      衡量一個(gè)Agent夠不夠強(qiáng),早已不再看它能不能“答對(duì)問(wèn)題”,而是看它在面對(duì)多輪推理、工具調(diào)用及復(fù)雜協(xié)作時(shí),能否用最短的路徑、最少的交互預(yù)算,穩(wěn)定地搞定任務(wù)

      在這一背景下,一個(gè)長(zhǎng)期被行業(yè)忽視的底層命題浮出水面:

      • 當(dāng)Agent的框架、工具、數(shù)據(jù)和訓(xùn)練方式都保持一致時(shí),僅僅改變語(yǔ)言模型的生成范式(Autoregressive vs Diffusion),是否會(huì)系統(tǒng)性地改變Agent的規(guī)劃與行為模式?

      近日,來(lái)自華為諾亞方舟實(shí)驗(yàn)室、華為先進(jìn)計(jì)算與存儲(chǔ)實(shí)驗(yàn)室、UCL、南洋理工大學(xué)、清華大學(xué)和北京大學(xué)的研究團(tuán)隊(duì),在最新工作《DLLM Agent: See Farther, Run Faster》中,對(duì)這一問(wèn)題給出了迄今為止最“對(duì)照實(shí)驗(yàn)式”的回答。

      他們發(fā)現(xiàn),僅僅是把“底座”換成了擴(kuò)散式大模型(DLLM),Agent就像突然開(kāi)了“上帝視角”,執(zhí)行速度不僅提升了30%以上,甚至在部分復(fù)雜任務(wù)中跑出了8倍于傳統(tǒng)AR模型的效率。

      文章鏈接:
      https://arxiv.org/pdf/2602.07451

      官方網(wǎng)頁(yè):
      https://noah-dllm.github.io/

      核心結(jié)論一覽

      在完全相同的Agent工作流、訓(xùn)練數(shù)據(jù)和交互預(yù)算下,研究發(fā)現(xiàn):

      • 在準(zhǔn)確率基本持平的前提下,DLLM Agent端到端執(zhí)行速度平均提升30%以上
      • 在成功解題的條件下,DLLM Agent使用更少的交互輪次和工具調(diào)用
      • DLLM展現(xiàn)出更強(qiáng)的planner能力:更早收斂到正確軌跡、回溯和冗余更少;
      • 這種優(yōu)勢(shì)并非僅來(lái)自并行解碼速度,而是體現(xiàn)在Agent級(jí)別的規(guī)劃與決策行為上。
      一個(gè)“極端公平”的對(duì)照實(shí)驗(yàn)設(shè)計(jì)

      為了避免“框架差異”、“提示工程”、“數(shù)據(jù)不一致”等干擾因素,作者采用了非常嚴(yán)格的對(duì)照實(shí)驗(yàn)設(shè)置:

      • 使用同一個(gè)Agent框架:DeepDiver(多智能架構(gòu),層級(jí)式規(guī)劃,https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver);
      • 使用同一套工具接口與解析規(guī)則
      • 使用完全相同的Agent任務(wù)進(jìn)行繼續(xù)訓(xùn)練;
      • 統(tǒng)一context長(zhǎng)度上限(32K)、最大交互輪數(shù)、tool call上限
      • 唯一變化因素:Agent背后的生成范式

      Autoregressive LLM(AR):openpangu 7b-v1

      Diffusion Large Language Model(DLLM):openpangu diffusion 7b,這個(gè)模型是從openpangu 7b-v1續(xù)訓(xùn)得到的,模型的基礎(chǔ)推理能力相似。

      這意味著,實(shí)驗(yàn)中觀察到的行為差異,不能歸因于數(shù)據(jù)/模型的基礎(chǔ)能力或workflow,而只能來(lái)自生成范式本身。

      不過(guò),考慮到生成范式的不同,針對(duì)多輪長(zhǎng)鏈交互的DLLM訓(xùn)練,作者使用了針對(duì)性調(diào)整的Mask策略和Attention裁剪策略,提升了DLLM Agent訓(xùn)練和推理的一致性。

      同樣的終點(diǎn),更短的路徑

      在構(gòu)建了對(duì)照平臺(tái)后,研究團(tuán)隊(duì)將關(guān)注點(diǎn)轉(zhuǎn)向了核心指標(biāo):即DLLM這種生成范式的改變,究竟能在多大程度上提升Agent的實(shí)戰(zhàn)表現(xiàn)?

      實(shí)驗(yàn)結(jié)果證明,DLLM Agent的優(yōu)勢(shì)并非僅僅來(lái)自“算得快”,更在于它在復(fù)雜規(guī)劃中“走得直”

      1、BrowseComp-zh基準(zhǔn)測(cè)試:效率的全面跨越

      研究團(tuán)隊(duì)在包含110條任務(wù)的BrowseComp-zh(中文多輪Web瀏覽)子集上,完成了性能測(cè)試。



      通過(guò)對(duì)海量測(cè)試結(jié)果的深度復(fù)盤,研究人員觀察到了幾個(gè)關(guān)鍵規(guī)律:

      DLLM Agent在準(zhǔn)確率持平的情況下,

      • 平均工具調(diào)用次數(shù)顯著減少;
      • Agent軌跡平均更短;
      • 端到端延遲下降約30%。

      但同時(shí)也暴露出一個(gè)現(xiàn)實(shí)問(wèn)題:原生DLLM更容易產(chǎn)生結(jié)構(gòu)化tool-call錯(cuò)誤。

      此外,作者還展示了DLLM Agent和AR Agent在Information Seeker完成問(wèn)題上的分布,可以清晰地看到DLLM Agent在處理問(wèn)題時(shí),往往能以更少的交互次數(shù)完成同樣的任務(wù)。



      2、案例實(shí)錄:8.18倍速度落差的背后

      為了更直觀地展現(xiàn)這種“走直路”的能力,可以看一個(gè)典型的多約束檢索案例(涉及動(dòng)物命名+中國(guó)互聯(lián)網(wǎng)公司+團(tuán)隊(duì)合并+軟硬件等多個(gè)維度),query如下:



      結(jié)果發(fā)現(xiàn),盡管AR Agent和DLLM Agent最終都給出了正確答案,但其執(zhí)行邏輯卻展現(xiàn)出巨大的差異,不僅表現(xiàn)在端到端有8.18×的速度差異上(如下表):



      也表現(xiàn)在具體的planner執(zhí)行過(guò)程上——

      DLLM Agent的planner質(zhì)量更高,從而在部分case上表現(xiàn)出來(lái)遠(yuǎn)超過(guò)基礎(chǔ)模型的效率差異的端到端性能收益。



      DLLM為何是天生的“強(qiáng)Planner”?

      論文并未停留在表面的數(shù)據(jù)對(duì)比,而是深入分析了entropy和confidence與擴(kuò)散過(guò)程中的內(nèi)部動(dòng)態(tài),試圖從生成范式的底層原理,來(lái)解釋DLLM為何在規(guī)劃上更具優(yōu)勢(shì)。

      一、Planner Agent:先全局、后細(xì)節(jié)

      在任務(wù)拆解階段,DLLM Planner表現(xiàn)出獨(dú)特的兩階段特征,這與人類先構(gòu)思大綱再填補(bǔ)內(nèi)容的思維方式不謀而合:

      階段一:并行提取關(guān)鍵信息

      用戶問(wèn)題中的4個(gè)核心約束,往往在1–2個(gè)diffusion step內(nèi)就能被同時(shí)識(shí)別。

      階段二:逐步細(xì)化任務(wù)結(jié)構(gòu)

      在已有全局框架下,再逐步補(bǔ)充具體的邏輯細(xì)節(jié)。

      這與AR的差異,主要體現(xiàn)在:

      • AR必須按token順序“邊想邊寫”;
      • 一旦早期判斷偏差,往往只能通過(guò)多輪todo/re-plan/verification來(lái)修正。

      這也直接解釋了,為什么AR Agent在實(shí)驗(yàn)中更容易產(chǎn)生多個(gè)todo_v1/todo_v2冗余規(guī)劃文檔的原因。下圖詳細(xì)解釋了planner在這個(gè)過(guò)程中的變化:



      二、Information Seeker:先定方向,再填參數(shù)

      在具體的工具調(diào)用階段,DLLM的生成模式呈現(xiàn)出一種極其穩(wěn)定的結(jié)構(gòu)化傾向:

      • 它會(huì)首先確定調(diào)用哪個(gè)工具;
      • 隨后,并行生成參數(shù)與細(xì)節(jié);
      • 整個(gè)tool-call被視為一個(gè)整體“動(dòng)作塊”,并在生成過(guò)程中被反復(fù)refinement。

      相比之下,AR Agent的生成過(guò)程更像是一條不可回頭的流水線:函數(shù)名→參數(shù)1→參數(shù)2→ …

      一旦前面的token出現(xiàn)語(yǔ)法或邏輯錯(cuò)誤,AR無(wú)法原地修正,只能寄希望于下一輪tool call來(lái)補(bǔ)救



      三、注意力演化:確定性的迅速鎖定

      研究團(tuán)隊(duì)通過(guò)對(duì)擴(kuò)散過(guò)程中Mask Token的熵(Entropy)演化,以及不同階段Attention的集中與分散的分析,得出了更深層的結(jié)論:

      • 在DLLM的生成過(guò)程中,高不確定性集中在決策的早期階段
      • 一旦高層決策形成,后續(xù)細(xì)節(jié)的生成會(huì)表現(xiàn)出極高的收斂速度
      • attention機(jī)制呈現(xiàn)出更明顯的“全局 → 局部”協(xié)調(diào)模式,這與AR僅僅追求token-level的局部最優(yōu)決策,形成了鮮明對(duì)比。

      不過(guò),作者并沒(méi)有回避DLLM的不足之處——

      Diffusion模型在處理Agent場(chǎng)景時(shí),對(duì)結(jié)構(gòu)化輸出更敏感

      通過(guò)設(shè)計(jì)訓(xùn)推一致的Mask策略與Attention策略(如context-clean corruption和span-aware attention mask),可以提升DLLM Agent的推理性能。

      這意味著,要充分發(fā)揮DLLM的潛力,并不能將其作為AR的簡(jiǎn)單替代品,而需要針對(duì)Agent的交互場(chǎng)景,重新對(duì)齊接口與訓(xùn)練目標(biāo)

      生成范式重塑Agent設(shè)計(jì)維度

      這項(xiàng)工作為Agent研究提供了一個(gè)全新的視角——

      生成范式本身,會(huì)深刻塑造Agent的行為方式。

      在完全相同的數(shù)據(jù)基底與技術(shù)框架下,DLLM Agent展現(xiàn)出了超越傳統(tǒng)自回歸模型的執(zhí)行效率:

      • 更早形成全局計(jì)劃
      • 更少走彎路
      • 更快速度結(jié)束任務(wù)

      這使得Diffusion不再只是“另一種生成模型”,而成為構(gòu)建高效Agent的一個(gè)全新設(shè)計(jì)維度。

      下方Demo直觀展示了DLLM Agent在效率上的顯著優(yōu)勢(shì)(同類對(duì)比示例可參考原論文中的Case1):



      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      清算開(kāi)始了!許家印石家莊分印被帶走,涉案1100億

      清算開(kāi)始了!許家印石家莊分印被帶走,涉案1100億

      壹只灰鴿子
      2026-02-15 16:24:46
      81歲林豆豆現(xiàn)狀:已退休23年,獨(dú)居在北京老房子,用閱讀打發(fā)時(shí)間

      81歲林豆豆現(xiàn)狀:已退休23年,獨(dú)居在北京老房子,用閱讀打發(fā)時(shí)間

      攬星河的筆記
      2025-11-12 12:36:17
      新華社消息|三部門聯(lián)合印發(fā)意見(jiàn)依法懲治水運(yùn)物流領(lǐng)域侵犯財(cái)產(chǎn)犯罪

      新華社消息|三部門聯(lián)合印發(fā)意見(jiàn)依法懲治水運(yùn)物流領(lǐng)域侵犯財(cái)產(chǎn)犯罪

      新華社
      2026-02-21 12:21:47
      廣東隊(duì)正式集結(jié)備戰(zhàn)!王少杰杜潤(rùn)旺提前歸隊(duì),杜峰制定訓(xùn)練方法

      廣東隊(duì)正式集結(jié)備戰(zhàn)!王少杰杜潤(rùn)旺提前歸隊(duì),杜峰制定訓(xùn)練方法

      越嶺尋蹤
      2026-02-20 17:05:37
      再拿一金一銅,中國(guó)體育代表團(tuán)4金3銀5銅排在獎(jiǎng)牌榜第12位

      再拿一金一銅,中國(guó)體育代表團(tuán)4金3銀5銅排在獎(jiǎng)牌榜第12位

      懂球帝
      2026-02-20 22:30:50
      6-3!斯諾克第3席4強(qiáng)誕生:趙心童4連鞭逆轉(zhuǎn)墨菲,創(chuàng)2大紀(jì)錄!

      6-3!斯諾克第3席4強(qiáng)誕生:趙心童4連鞭逆轉(zhuǎn)墨菲,創(chuàng)2大紀(jì)錄!

      劉姚堯的文字城堡
      2026-02-21 00:31:14
      內(nèi)行人預(yù)測(cè):2026年這四大現(xiàn)象或?qū)⑾砣珖?guó),建議提前應(yīng)對(duì)!

      內(nèi)行人預(yù)測(cè):2026年這四大現(xiàn)象或?qū)⑾砣珖?guó),建議提前應(yīng)對(duì)!

      朝子亥
      2026-02-20 18:00:03
      一夜爆火!全球缺貨排隊(duì)等5年!2026年最被低估的硬核賽道

      一夜爆火!全球缺貨排隊(duì)等5年!2026年最被低估的硬核賽道

      時(shí)尚的弄潮
      2026-02-21 16:15:47
      退休后的同學(xué)聚會(huì),撕開(kāi)了“體制內(nèi)”和“體制外”的那層遮羞布

      退休后的同學(xué)聚會(huì),撕開(kāi)了“體制內(nèi)”和“體制外”的那層遮羞布

      朗威談星座
      2026-02-17 03:51:37
      大廠的“圍爐煮茶”新年禮盒!采購(gòu)價(jià)485元,閑魚(yú)只賣80塊

      大廠的“圍爐煮茶”新年禮盒!采購(gòu)價(jià)485元,閑魚(yú)只賣80塊

      閑搞機(jī)
      2026-02-21 11:00:03
      73歲老太在烈士陵園掃墓,意外發(fā)現(xiàn)自己的名字,隨即驚動(dòng)政府人員

      73歲老太在烈士陵園掃墓,意外發(fā)現(xiàn)自己的名字,隨即驚動(dòng)政府人員

      搜史君
      2026-01-04 18:15:03
      真正決定孩子未來(lái)的,不是學(xué)區(qū)房,不是補(bǔ)習(xí)班,而是你家的家風(fēng)

      真正決定孩子未來(lái)的,不是學(xué)區(qū)房,不是補(bǔ)習(xí)班,而是你家的家風(fēng)

      青蘋果sht
      2026-02-13 06:20:39
      女子除夕夜通過(guò)監(jiān)控看到父親對(duì)著空桌獨(dú)自吃餃子,第二天與弟弟驅(qū)車800公里回家,“回家后爸爸哭了”

      女子除夕夜通過(guò)監(jiān)控看到父親對(duì)著空桌獨(dú)自吃餃子,第二天與弟弟驅(qū)車800公里回家,“回家后爸爸哭了”

      極目新聞
      2026-02-20 22:30:02
      “這下好了,中國(guó)怎么可能再買美國(guó)大豆?”

      “這下好了,中國(guó)怎么可能再買美國(guó)大豆?”

      觀察者網(wǎng)
      2026-02-21 13:33:05
      強(qiáng)化學(xué)習(xí)之父最新演講:大模型是一時(shí)狂熱,AI的真正時(shí)代還沒(méi)開(kāi)始

      強(qiáng)化學(xué)習(xí)之父最新演講:大模型是一時(shí)狂熱,AI的真正時(shí)代還沒(méi)開(kāi)始

      DeepTech深科技
      2026-02-19 20:15:12
      阿爾茨海默病者逐漸增多,醫(yī)生提醒:55歲后,盡量改掉6個(gè)壞習(xí)慣

      阿爾茨海默病者逐漸增多,醫(yī)生提醒:55歲后,盡量改掉6個(gè)壞習(xí)慣

      39健康網(wǎng)
      2026-02-17 18:31:37
      12GB+256GB!新機(jī)官宣:3月5日,正式發(fā)布

      12GB+256GB!新機(jī)官宣:3月5日,正式發(fā)布

      科技堡壘
      2026-02-21 11:59:42
      我爸和我二叔十年不說(shuō)話,我出嫁的前一天,二叔卻把我攔在了村口

      我爸和我二叔十年不說(shuō)話,我出嫁的前一天,二叔卻把我攔在了村口

      人間百態(tài)大全
      2025-12-14 06:45:03
      給人養(yǎng)了7年閑人,廣汽終于要關(guān)閉洛杉磯的研發(fā)中心

      給人養(yǎng)了7年閑人,廣汽終于要關(guān)閉洛杉磯的研發(fā)中心

      與車同樂(lè)
      2025-12-04 10:05:02
      父親給兩個(gè)兒子取了同一個(gè)名字:博古之子秦剛傳奇人生與時(shí)代印記

      父親給兩個(gè)兒子取了同一個(gè)名字:博古之子秦剛傳奇人生與時(shí)代印記

      老籣說(shuō)體育
      2026-02-07 11:23:49
      2026-02-21 18:27:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動(dòng)態(tài)
      12186文章數(shù) 176389關(guān)注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      省直機(jī)關(guān)女工程師陷美男計(jì) 拉公職人員丈夫當(dāng)間諜17年

      頭條要聞

      省直機(jī)關(guān)女工程師陷美男計(jì) 拉公職人員丈夫當(dāng)間諜17年

      體育要聞

      冬奧第一"海王"?一人和13國(guó)選手都有關(guān)系

      娛樂(lè)要聞

      鏢人反超驚蟄無(wú)聲拿下單日票房第二!

      財(cái)經(jīng)要聞

      一覺(jué)醒來(lái),世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔(dān)當(dāng)”來(lái)了 方程豹首款轎車路跑信息曝光

      態(tài)度原創(chuàng)

      本地
      親子
      教育
      旅游
      公開(kāi)課

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      親子要聞

      誰(shuí)能猜出他倆是什么關(guān)系?

      教育要聞

      新春走基層 | 慢飛天使捏出 “年的形狀”

      旅游要聞

      臨沂天上王城春節(jié)假期開(kāi)門紅,好戲連臺(tái)過(guò)大年

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版