<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      擴散語言模型推理太慢?北大團隊:ODB-dLLM破解計算訪存雙重瓶頸

      0
      分享至



      本研究由北京大學研究團隊完成。通訊作者為李萌,北京大學人工智能研究院和集成電路學院助理教授,博導,PKU SEC Lab 負責人,他的研究興趣集中于高效、安全人工智能加速算法和芯片,旨在通過算法到芯片的跨層次協同設計和優化,為人工智能構建高能效、高可靠、高安全的算力基礎。第一作者韋臨燁,北京大學集成電路學院博士一年級在讀,主要研究方向為多模態高效 AI 系統和加速器設計。

      基于擴散的大語言模型 (dLLM) 憑借全局解碼和雙向注意力機制解鎖了原生的并行解碼和受控生成的潛力,最近吸引了廣泛的關注。例如 Fast-dLLM 的現有推理框架通過分塊半自回歸解碼進一步實現了 dLLM 對 KV cache 的支持,挑戰了傳統自回歸 LLMs 的統治地位。

      然而,雙向注意力引入的 cache 刷新機制使這一推理過程成為預填充 / 解碼交錯的模式,將傳統自回歸模型解碼階段效率的訪存瓶頸限制轉化為計算 / 訪存瓶頸交替限制,占據了推理開銷中不可忽視的一部分。此外,認為整個序列 KV 狀態在分塊內不變的緩存近似方式還一定程度上劣化了模型性能。

      針對這一缺陷,來自北大的研究團隊提出一種新的 dLLM 推理加速框架 ODB-dLLM(Orchestrating Dual-Boundaries: An Arithmetic Intensity Inspired Acceleration Framework for Diffusion Language Models)。它通過分析現有 dLLM 推理框架中交錯的計算和訪存瓶頸階段,引入了自適應長度預測策略和跳躍共享推測解碼,以優化 dLLM 在硬件平臺上的計算訪存特性,最大限度地提高推理效率。



      • 論文標題:Orchestrating Dual-Boundaries: An Arithmetic Intensity Inspired Acceleration Framework for Diffusion Language Models
      • 論文鏈接:https://arxiv.org/abs/2511.21759
      • Github 鏈接:https://github.com/PKU-SEC-Lab/ODB-dLLM

      研究背景和動機


      傳統 dLLM 模型中任意兩個 token 間的雙向注意力破壞了 KV cache 應用的前提,讓整個推理過程陷入每一步都執行預填充的計算瓶頸問題,沒有取得超越自回歸模型的實際推理速度。Fast-dLLM 及類似工作將預設定長度的輸出序列劃分為多個分塊,只在每個分塊解碼的第一步執行預填充并存儲全局的的 KV 狀態,隨后計算分塊內的 tokens 并基于置信度閾值接收。當一個分塊內的所有位置都被解掩碼,轉到下一個分塊并刷新 KV cache。然而,這樣的推理框架仍然存在以下挑戰:

      • 交錯的計算和訪存瓶頸模式都限制了效率。分塊半自回歸解碼的每個新塊都會觸發全局預填充以刷新 KV cache,占總推理延遲的 30-40%。隨著更細粒度的并行解碼設計來減少解碼步數,計算密集型的預填充階段將進一步占據主導地位。亟需一個算術強度感知的推理框架聯合緩解計算和訪存瓶頸。

      • 以現有的 dLLM 無法感知實際任務需求,導致預設定輸出長度過長。dLLM 中的每個分塊都采用雙向注意力,以先前和后續令牌為條件。因此,需要固定的響應長度來控制剩余的輸出空間。為了確保足夠的容量,該長度通常設置為較大的默認值(例如 1024),這會在計算密集型的預填充階段引入大量開銷并導致冗余推理。

      • 硬閾值延遲了對潛在正確 token 的接受,導致更長的解碼軌跡和更多的步數。在訪存密集型的解碼階段,模型并行計算分塊內的所有掩碼 token,但僅接受置信度超過閾值的部分,而其他 token 則被重新掩碼。大量正確 token 由于在當前步的置信度分數低于閾值而被推遲接收,從而導致額外的解碼步驟并增加不必要延遲。與此同時,直接降低閾值又會損害模型性能。




      ODB-dLLM 框架


      ODB-dLLM 推理框架的目標在于協調交錯的計算和訪存瓶頸限制。為了減輕預設定響應長度帶來的大量預填充開銷,本文提出了一種自適應長度預測策略來減少冗余計算。此外,本文引入了為 dLLM 特別定制的跳躍共享推測解碼方法,可在有限的算術強度下減少訪存受限階段的解碼步驟。

      自適應長度預測

      該策略在每一輪預填充后考察整個響應序列,檢測是否存在 [EOS] token。一旦識別出存在這一終止標記,就會提取其置信度分數并將其與預定義的截斷閾值進行比較。如果置信度超過閾值,則響應將在該位置被截斷。如果未檢測到 [EOS] token,或者對應的置信度均低于閾值,則響應長度保持不變。這種漸進式策略最大限度地減少了預填充階段的算術強度和冗余計算,隨著模型的不確定性和多樣性逐漸收斂還帶來了性能增益。



      跳躍共享推測解碼

      推測解碼通過增加計算強度鼓勵多樣化預測,為訪存受限場景下進一步提高解碼的并行度提供了解決方案。然而,dLLM 推理的雙向注意力將 token 間的因果依賴轉化為全局依賴,在傳統推測解碼中構造的遵循嚴格順序的 token tree 被全連通 token graph 所取代。因此,一方面候選 token graph 中任何獨立驗證的節點對都會解鎖其連接邊緣,從而實現更靈活的推測解碼探索;另一方面任意一個 token 的改變都需要計算一個完整的新塊,計算強度隨候選預測的增加而迅速增大并演化為訪存瓶頸,限制了推測的多樣性。基于此,本文提出了兩點關鍵設計:

      1. 跳躍接收推測策略。推測解碼的草稿塊也同時作為中間驗證塊,實現草稿 token 跨塊的跳躍驗證和接收,從而在單次解碼迭代中解掩碼更多 token,在有限的推測塊預算下顯著提高解碼效率。



      2. 解碼共享推測策略。考慮各推測塊間的高度相似性,塊內已解碼 token 的 KV 狀態也可以只在當前塊內計算更新,并在多個推測塊之間共享。隨著解碼的進展,推測塊的計算成本逐漸降低,為更多推測快的拓展提供了機會。



      實驗結果:更快、更準

      研究團隊在兩種代表性的開源擴散語言模型LLaDA-Instruct和 LLaDA-1.5 上評估了 ODB-dLLM。在多個數據集上對比 Vanilla model 和 Fast-dLLM 推理框架結果如下:





      • 團隊測量了預填充長度和延遲的減少,確認了計算密集階段有意義的算術強度節省。此外,每次預填充迭代期間響應長度的逐步收縮隱式地將模型限制在更準確的答案空間,從而比生成到 [EOS] token 后簡單地截斷產生更高的精度。



      • 針對訪存密集階段的推測解碼,實驗發現跳躍接收策略增加了每步接受的 token 數量,并通過一次解碼中的多段接收減少了并行解掩碼 token 間的潛在沖突。解碼共享策略的引入進一步減少了解碼輪次,同時優先解掩碼之前未能接受但置信度較高的 token。跳躍共享推測解碼因而在速度和精度上都取得了顯著增益。



      總結


      受預填充和解碼階段異構算術強度的啟發,本研究提出了 ODB-dLLM,這是一個協調計算 / 訪存雙邊界以加速 dLLM 推理的框架。在預填充階段,團隊發現預定義的固定響應長度引入了繁重且冗余的計算開銷,ODB-dLLM 采用了自適應長度預測機制,可逐步減少預填充開銷和不必要的計算。在解碼階段,團隊分析了擴散語言模型的計算特性,并提出了一種特別定制的跳躍共享推測解碼方法,通過減少解碼迭代次數來提高效率。

      論文與代碼均已公開,歡迎感興趣的同學閱讀、復現以及深入討論。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一旦發生戰爭,江蘇地區的居民需要去哪里避難?

      一旦發生戰爭,江蘇地區的居民需要去哪里避難?

      小陸搞笑日常
      2025-12-18 13:41:44
      鄰居把排污管接我院子里,我不爭天天種菖蒲,2月后他主動賠6000

      鄰居把排污管接我院子里,我不爭天天種菖蒲,2月后他主動賠6000

      卡西莫多的故事
      2025-12-16 10:29:36
      人心不足蛇吞象!人民日報點名,揭開全紅嬋的真實處境,誤會太深

      人心不足蛇吞象!人民日報點名,揭開全紅嬋的真實處境,誤會太深

      顧史
      2025-12-17 20:40:47
      突發!中國電信一高管:在辦公室身亡

      突發!中國電信一高管:在辦公室身亡

      云頭條
      2025-12-19 00:12:45
      最后關頭,高市政府通告中國,希望送回大熊貓,中方誤判了日本?

      最后關頭,高市政府通告中國,希望送回大熊貓,中方誤判了日本?

      影孖看世界
      2025-12-17 20:21:04
      多喝茶能消腸息肉?醫生:消除腸息肉有3個科學方式,不是喝茶

      多喝茶能消腸息肉?醫生:消除腸息肉有3個科學方式,不是喝茶

      看世界的人
      2025-12-18 20:17:13
      難怪高市早苗不松口,日本等1個特殊日子,中方主動邀日首相訪華

      難怪高市早苗不松口,日本等1個特殊日子,中方主動邀日首相訪華

      影孖看世界
      2025-12-18 15:59:28
      丈夫43歲被總監裁員,領了補償后把前同事刪了,老板知道后傻眼了

      丈夫43歲被總監裁員,領了補償后把前同事刪了,老板知道后傻眼了

      小秋情感說
      2025-12-18 14:28:52
      和郭艾倫傳緋聞?女籃美女曝光,31歲,老鄉,活潑,公布擇偶標準

      和郭艾倫傳緋聞?女籃美女曝光,31歲,老鄉,活潑,公布擇偶標準

      樂聊球
      2025-12-17 11:18:50
      將徹底退場!教育部禁買試題扯下那塊遮羞布 老師該自己長本事了

      將徹底退場!教育部禁買試題扯下那塊遮羞布 老師該自己長本事了

      深析古今
      2025-12-18 11:49:59
      回顧:河南女子去喝喜酒,發現9年前被槍決的弟弟,竟坐在桌對面

      回顧:河南女子去喝喜酒,發現9年前被槍決的弟弟,竟坐在桌對面

      飛云如水
      2024-12-19 01:45:00
      業界李嘉欣!她完美身材+御姐顏值,太美了

      業界李嘉欣!她完美身材+御姐顏值,太美了

      吃瓜黨二號頭目
      2025-12-17 12:32:16
      再多錢有什么用?被曝丑聞僅9個月,金秀賢再迎噩耗,恐徹底涼涼

      再多錢有什么用?被曝丑聞僅9個月,金秀賢再迎噩耗,恐徹底涼涼

      心靈的觸動a
      2025-12-17 22:49:13
      破案!京遼大戰陳盈駿罕見連罰6球的原因找到,23號裁判問題很大

      破案!京遼大戰陳盈駿罕見連罰6球的原因找到,23號裁判問題很大

      后仰大風車
      2025-12-18 09:05:11
      王楚欽官宣新代言!手握第11個合同 年收入超5000萬 仍落后孫穎莎

      王楚欽官宣新代言!手握第11個合同 年收入超5000萬 仍落后孫穎莎

      侃球熊弟
      2025-12-19 00:45:03
      誤打誤撞把病治好是啥體驗?網友:華佗在世都要甘拜下風啊

      誤打誤撞把病治好是啥體驗?網友:華佗在世都要甘拜下風啊

      帶你感受人間冷暖
      2025-07-21 00:15:06
      中方發話后,泰國開出停火條件,洪森父子倒向美國,最大輸家已定

      中方發話后,泰國開出停火條件,洪森父子倒向美國,最大輸家已定

      泠泠說史
      2025-12-18 14:11:16
      12月19日,安徽氣溫白天沖高、晚上“大跳水”

      12月19日,安徽氣溫白天沖高、晚上“大跳水”

      北青網-北京青年報
      2025-12-18 19:32:06
      什么叫洗錢?網友:比亞迪造衛星一年20億,拍一個減肥電影要3億

      什么叫洗錢?網友:比亞迪造衛星一年20億,拍一個減肥電影要3億

      夜深愛雜談
      2025-12-11 20:39:39
      中央最近亮劍了,十五五規劃直接把“遮羞布”扯了下來。

      中央最近亮劍了,十五五規劃直接把“遮羞布”扯了下來。

      南權先生
      2025-12-16 16:24:33
      2025-12-19 06:44:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11950文章數 142513關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽總決賽收官

      頭條要聞

      特朗普命令2028年登月 在月球部署核反應堆

      頭條要聞

      特朗普命令2028年登月 在月球部署核反應堆

      體育要聞

      紐約尼克斯,板正的球隊

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      家居
      數碼
      房產
      健康
      公開課

      家居要聞

      高端私宅 理想隱居圣地

      數碼要聞

      LG新一代車用屏下攝像頭將亮相CES 2026,畫質達非屏下產品99%

      房產要聞

      搶藏瘋潮!封關時代,海口頂奢王炸壓軸,傳世資產即刻登場!

      這些新療法,讓化療不再那么痛苦

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 风韵丰满熟妇啪啪区老熟熟女| 99re在线| 国产熟女内射oooo| 鄂托克旗| 高清dvd碟片 生活片| 麻豆精品一区二区综合av| 国产精品久久无码一区二区三区网| 内射网址| 伊人AV天堂| 7777精品伊人久久久大香价格| 97超碰自拍| 日本狠狠干| 台江县| 国产ts| 久操精品| 额尔古纳市| 日韩欧美亚洲| 人人插插| 69亚洲精品| 嘉峪关市| 亚洲精品影院| 你懂的网址国产日韩网址| 婷婷五月AV| 徐闻县| 国产熟女在线看| 精品制服丝袜亚洲专区| 精品国产乱码久久久久APP下载| 成在线人永久免费视频播放| 性一交一乱一乱一视频| 桃花色综合影院| 喀喇| 国产亚洲视频在线观看| 人妻制服丝袜中文字幕| 国产成人啪精品午夜网站| 免费的特黄特色大片| 男人吃奶玩奶乳30分钟| 人人妻久久人人澡人人爽人人精品| 国产亚洲精品久久久久婷婷瑜伽| 页游| 一级AV韩国| 91拍真实国产伦偷精品|