<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型推理8倍加速,完全無損,以Qwen3.5-27B-DFlash為例

      0
      分享至

      前文介紹了 Qwen3.5-27B-DFlash,非常神奇

      本文更進一步,深入了解一下 DFlash 技術細節


      DFlash + DDTree 加速流水線 先說背景:推測解碼(Speculative Decoding)

      大模型生成文本的時候,最大的瓶頸是什么?一個 token 一個 token 地吐

      不管你 GPU 有多猛,自回歸生成就是一步一步來,快不了

      推測解碼(Speculative Decoding)是目前主流的加速思路:用一個小模型快速"猜"一串 token,再讓大模型一次性驗證。猜對了就賺了,猜錯了也不虧——大模型自己糾正就行

      但傳統推測解碼有個問題:小模型也是自回歸的,猜的速度也不夠快。

      DFlash:用擴散模型替代自回歸草稿

      DFlash(Block Diffusion for Flash Speculative Decoding)來自 Z Lab,核心創新就一句話:用輕量級 block diffusion 模型,單次前向傳播并行生成整個 token block 作為草稿

      傳統小模型一個一個猜,DFlash 一次猜一整塊(block size = 16)


      DFlash 方法流水線

      怎么做到的?

      關鍵技術叫 KV Injection——把目標大模型多層 hidden features 融合后注入草稿小模型的 KV cache,讓小模型也能高質量預測

      加速效果有多猛?

      基準

      模型

      DFlash 加速

      HumanEval T=0.0

      Qwen3-30B-MoE

      6.09x

      MATH-500 T=0.0

      Qwen3-8B

      6.17x

      GSM8K T=0.0

      Qwen3-8B

      5.20x

      AIME24 T=0.0

      Qwen3-8B

      5.91x

      MBPP T=0.0

      Qwen3-8B

      4.75x

      對比 EAGLE-3(目前最流行的推測解碼方案),DFlash 快了約 2.5 倍。EAGLE-3 的極限大概 2-3x 加速,DFlash 直接干到 5-6x

      而且在采樣模式(Temperature=1)和 thinking mode 下仍然保持約 4.5x 加速,這一點非常重要——大部分加速方案在有隨機性的時候就拉胯了

      DDTree:把 DFlash 再推一把

      DDTree(Diffusion Draft Tree)是以色列理工學院 Liran Ringel 在 DFlash 基礎上做的進一步優化

      核心思路:DFlash 一次前向傳播輸出的是每個位置的概率分布。DDTree 不是從中只取一條路徑,而是用 best-first heap 算法構建一棵草稿樹,選出最有希望的多條分支,然后讓目標模型一次前向傳播驗證整棵樹


      DDTree 四步流程:

      1. Block diffusion 一次前向生成 L 個位置的分布

      2. Best-first heap 在節點預算 B 下構建最優草稿樹

      3. Tree attention 編譯為目標模型輸入

      4. 驗證遍歷:匹配子節點則繼續,不匹配則取 bonus token 進入下輪

      這套方案有個數學保證:構建的樹在 draft 模型分布下可證明最大化期望接受長度

      效果:

      在 HumanEval T=0.0 上,DDTree 把 DFlash 的 6.09x 直接拉到了 8.22x,額外多賺了 2.13x。

      最關鍵的是——完全無損。目標模型用自己的解碼規則,DDTree 只是幫它更高效地探索搜索空間,輸出分布和不加速時完全一致。

      已支持的模型

      DFlash 已經為一批主流模型訓好了 Draft 模型:

      目標模型

      Draft 模型

      Kimi-K2.5 (Preview)

      z-lab/Kimi-K2.5-DFlash

      Qwen3.5-4B/9B/27B

      z-lab/Qwen3.5-*-DFlash

      Qwen3.5-35B-A3B

      z-lab/Qwen3.5-35B-A3B-DFlash

      Qwen3-Coder-30B-A3B

      z-lab/Qwen3-Coder-30B-A3B-DFlash

      Llama-3.1-8B-Instruct

      z-lab/LLaMA3.1-8B-Instruct-DFlash

      Qwen3.5-122B、397B 和 GLM-5.1 的 Draft 模型也在路上了。

      怎么用?

      DFlash 已經接入了三大推理框架:

      SGLang:

      python -m sglang.launch_server \
      --model-path Qwen/Qwen3.5-35B-A3B \
      --speculative-algorithm DFLASH \
      --speculative-draft-model-path z-lab/Qwen3.5-35B-A3B-DFlash \
      --tp-size 1 --attention-backend trtllm_mha

      vLLM:

      vllm serve Qwen/Qwen3.5-27B \
      --speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.5-27B-DFlash", "num_speculative_tokens": 15}'

      Apple Silicon(MLX):

      pip install -e ".[mlx]"

      對,Mac 用戶也能用。

      DDTree 跑基準測試:

      git clone https://github.com/liranringel/ddtree
      cd ddtree
      pip install -r requirements.txt
      bash run_benchmark.sh
      python3 plot_results.py
      總結

      DFlash + DDTree 這對組合拳,代表了推測解碼的下一個階段:

      • DFlash 解決了"猜得慢"的問題 ——用 block diffusion 一次猜一整塊

      • DDTree 解決了"猜得不夠多"的問題 ——用概率樹探索多條路徑

      最終效果是 8x+ 無損加速,而且已經接入 SGLang、vLLM、MLX 三大框架,實際可用。

      對于部署大模型推理服務的團隊來說,這幾乎是免費的午餐——加速 5-8 倍,不犧牲任何輸出質量,只需要加載一個很小的 Draft 模型

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      4月20日人民幣對美元中間價調貶26個基點

      4月20日人民幣對美元中間價調貶26個基點

      證券時報
      2026-04-20 09:33:02
      趕回家見病危兒子最后一面 62歲大叔在火車上泣不成聲! 同車男子買來盒飯默默安慰

      趕回家見病危兒子最后一面 62歲大叔在火車上泣不成聲! 同車男子買來盒飯默默安慰

      閃電新聞
      2026-04-20 13:11:13
      恒大暴雷之前,許家印為什么沒有跑?

      恒大暴雷之前,許家印為什么沒有跑?

      擔撲
      2026-04-19 13:40:25
      恩德里克:我一直對曼聯很有好感,因為C羅曾在那里踢球

      恩德里克:我一直對曼聯很有好感,因為C羅曾在那里踢球

      懂球帝
      2026-04-20 11:31:03
      舒淇不再隱瞞!多年無子的她終于承認:我們不是丁克,是生不出來

      舒淇不再隱瞞!多年無子的她終于承認:我們不是丁克,是生不出來

      長歌侃娛
      2026-04-19 09:54:43
      瓜迪奧拉:我要哭了!哈蘭德:他TM就是卡納瓦羅!

      瓜迪奧拉:我要哭了!哈蘭德:他TM就是卡納瓦羅!

      硯底沉香
      2026-04-20 09:03:22
      你做初一,我做十五!日艦過航臺海三天后,052D沖向橫當水道

      你做初一,我做十五!日艦過航臺海三天后,052D沖向橫當水道

      烈史
      2026-04-20 12:04:36
      貴州一地突降冰雹最厚處30厘米,當地使用鏟車清理,部分農作物受損,鄉政府:正統計受災情況

      貴州一地突降冰雹最厚處30厘米,當地使用鏟車清理,部分農作物受損,鄉政府:正統計受災情況

      極目新聞
      2026-04-20 11:15:09
      CBA最新消息!上海男籃大將常規賽報銷,北京首鋼簽約頂級后衛

      CBA最新消息!上海男籃大將常規賽報銷,北京首鋼簽約頂級后衛

      金風說
      2026-04-20 13:19:23
      重磅!美媒稱哈登就是NBA從未奪冠的最偉大球員,沒有之一

      重磅!美媒稱哈登就是NBA從未奪冠的最偉大球員,沒有之一

      銜春信
      2026-04-20 08:04:19
      悲劇!廣東96年女生開會時心梗猝死 為2萬月薪半年熬夜硬扛

      悲劇!廣東96年女生開會時心梗猝死 為2萬月薪半年熬夜硬扛

      老貓觀點
      2026-04-20 06:01:26
      比失業更可怕的是工資倒退,深圳的工資已經降到了10年前

      比失業更可怕的是工資倒退,深圳的工資已經降到了10年前

      細說職場
      2026-04-07 11:32:47
      碾壓珠穆朗瑪峰!火星上的山為何能長到2萬米?重力不是唯一原因

      碾壓珠穆朗瑪峰!火星上的山為何能長到2萬米?重力不是唯一原因

      半解智士
      2026-04-18 18:44:07
      丈夫駐邊20年不回家,我帶著孩子千里探親,部隊:他壓根沒入伍

      丈夫駐邊20年不回家,我帶著孩子千里探親,部隊:他壓根沒入伍

      紅豆講堂
      2025-10-14 16:22:44
      穆里尼奧神換人:替補神兵補時絕殺,30輪不敗,升到聯賽第2名

      穆里尼奧神換人:替補神兵補時絕殺,30輪不敗,升到聯賽第2名

      足球狗說
      2026-04-20 07:28:31
      央視離職者傳十年換五任妻子,私生活現狀引關注

      央視離職者傳十年換五任妻子,私生活現狀引關注

      暖心萌阿菇涼
      2026-04-19 13:19:26
      57歲歌手陳紅近況曝光!離婚后被前夫拿走12億,兒子成為她的驕傲

      57歲歌手陳紅近況曝光!離婚后被前夫拿走12億,兒子成為她的驕傲

      代軍哥哥談娛樂
      2026-04-18 09:57:07
      特朗普下令開火攔船:美軍擊穿伊朗貨船機艙,直接登船接管

      特朗普下令開火攔船:美軍擊穿伊朗貨船機艙,直接登船接管

      桂系007
      2026-04-20 05:10:26
      路易十六哀歌:善良是大革命的最大原罪

      路易十六哀歌:善良是大革命的最大原罪

      朝廷心腹
      2026-04-16 14:20:31
      不再為美兜底!中國拒絕美8500億債務,救美國就是救中國時代落幕

      不再為美兜底!中國拒絕美8500億債務,救美國就是救中國時代落幕

      阿器談史
      2026-04-18 11:27:57
      2026-04-20 14:35:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3335文章數 11137關注度
      往期回顧 全部

      科技要聞

      藍色起源一級火箭完美回收 客戶衛星未入軌

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      體育要聞

      七大獎項候選官宣!文班或全票DPOY

      娛樂要聞

      鹿晗生日上熱搜,被關曉彤撕下體面

      財經要聞

      月之暗面IPO迷局

      汽車要聞

      把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態度原創

      家居
      藝術
      房產
      旅游
      游戲

      家居要聞

      自然慢調 慢享時光

      藝術要聞

      王羲之《換鵝帖》尚在人間,驚艷無比!

      房產要聞

      重磅!海口北站來了!多項信息曝光,過海時間將大幅縮短!

      旅游要聞

      800年紫藤花開如瀑 最美寧陽四月天

      頒獎臺上動手 《反恐精英》選手襲擊對手被禁賽10年

      無障礙瀏覽 進入關懷版