<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      7B擴散語言模型單樣例1000+ tokens/s!上交大聯合華為推出LoPA

      0
      分享至



      視頻 1:單樣例推理速度對比:SGLang 部署的 Qwen3-8B (NVIDIA) vs. LoPA-Dist 部署 (NVIDIA & Ascend)(注:NVIDIA 平臺相同,配置對齊)

      在大語言模型(LLMs)領域,擴散大語言模型(dLLMs)因其并行預測特性,理論上具備超越傳統自回歸(AR)模型的推理速度潛力。然而在實踐中,受限于現有的解碼策略,dLLMs 的單步生成往往局限于 1-3 個 Token,難以真正釋放其并行潛力。

      近期,上海交通大學 DENG Lab 聯合華為的一項新研究打破了這一瓶頸。該工作提出了一種名為LoPA (Lookahead Parallel Decoding) 的無需訓練的解碼算法,通過主動探索最優填詞順序,顯著提升了 dLLMs 的推理并行度和吞吐量。

      本文作者團隊來自上海交通大學 DENG Lab 與華為。該研究由徐晨開、金義杰同學等人共同完成,指導教師為鄧志杰老師。DENG Lab 隸屬上海交通大學,致力于高效、跨模態生成模型的研究。



      • 論文地址:https://arxiv.org/abs/2512.16229
      • 代碼地址:https://github.com/zhijie-group/LoPA
      • 博客地址:https://zhijie-group.github.io/blogs/lopa

      實驗顯示,LoPA 將 D2F-Dream 在 GSM8K 基準上的單步生成 Token 數(TPF)從 3.1 提升至 10.1,并行度提升超 3 倍。配合團隊自研的 LoPA-Dist 分布式推理系統,在華為 Ascend 910C 平臺上實現了 1073.9 tokens/s 的單樣本吞吐量,不僅大幅超越基線模型,更將 dLLMs 的推理效率推向了新高度。



      圖 1:LoPA 的吞吐量結果展示。LoPA 將 D2F-Dream 的單樣本吞吐量在 MBPP 和 GSM8K 上分別提升至高達 1073.9 和 856.5 個 token/s,顯著優于基線方法。

      簡單來說,LoPA 為 dLLMs 賦予了以下核心特性:

      1.極高的并行度:首次將 dLLMs 的每步生成數量(TPF)提升至 10 Token 量級,突破了傳統方法的效率瓶頸。

      2.無需訓練:作為一種即插即用的解碼算法,無需對模型進行重訓或微調。

      3.前瞻并行解碼:通過引入分支并行機制,主動探索不同的填詞順序(TFO),避免模型陷入低置信度的局部最優。

      4.系統級加速:配套設計的 LoPA-Dist 系統,支持 CUDA 和 Ascend 雙平臺,通過分支并行最大化硬件利用率。



      圖 2:對不同分支數的 D2F-Dream 進行 LoPA 擴展性分析。結果表明,LoPA 能有效擴展 D2F 的 TPF,使其峰值超過 10,從而顯著減少解碼總步驟數。

      問題的根源:填詞順序限制并行潛力

      dLLMs 理論上支持全序列并行生成,但在實際應用中,現有的主流模型(如 Fast-dLLM, D2F, SDAR)普遍采用置信度驅動采樣(Confidence-Driven Sampling)。這種策略傾向于貪婪地優先填充當前置信度最高的位置。

      研究團隊發現,并行度的高低與填詞順序(Token Filling Order, TFO)高度相關。貪婪策略雖然在當前步驟保證了準確性,但并不考慮后續步驟的預測置信度,導致模型在后續迭代中并沒有充分釋放并行度。



      圖 3:LoPA 算法流程概覽。在每次迭代中,LoPA 通過獨立采樣高置信度位置,生成一個錨定分支以及多個前瞻分支。然后,分支置信度驗證機制并行評估所有分支,以選擇最優路徑。

      LoPA 的核心設計:前瞻并行與分支驗證

      為了解決上述問題,LoPA 引入了前瞻并行解碼機制。其核心思想是:利用少量的額外計算開銷,同時探索多種填詞順序,從而找到一條能讓未來預測 “更自信” 的路徑。

      LoPA 的工作流程包含三個關鍵階段:

      1. 多分支并行探索

      LoPA 在保留標準錨點分支(Anchor Branch,即常規貪婪策略)的同時,額外對當前的最高置信度的 k 個位置分別采樣得到 k 個前瞻分支(Lookahead Branches)。每個分支代表一種不同的填詞順序嘗試。

      2. 分支置信度驗證

      團隊設計了分支置信度(Branch Confidence)指標,用于量化分支中剩余未填位置的平均預測置信度。較高的分支置信度意味著該路徑在下一輪迭代中能填充更多的 Token,具備更高的并行潛力。

      3. 并行驗證與復用

      通過隔離不同分支的注意力設計,所有候選分支(錨點 + 前瞻)可以在一次前向傳遞中并行完成驗證。系統最終選擇未來潛力最大的分支作為本次迭代結果。驗證過程中計算的 Logits 被直接復用于下一步生成,無需額外前向傳播。



      圖 4:LoPA 分支并行分布式推理系統設計展示。關鍵區別在于針對不同后端定制的鍵值緩存管理協議:LoPA-Dist-NV 采用穩健的兩階段更新機制以確保一致性,而 LoPA-Dist-Ascend 則采用精簡的單階段更新策略以優化服務效率。

      系統級創新:LoPA-Dist 分布式推理

      為了承載 LoPA 的多分支計算,團隊設計了 LoPA-Dist 分布式推理系統,引入了全新的分支并行(Branch Parallelism, BP)策略,可與張量并行(Tensor Parallelism,TP)等現有并行機制混合使用。

      該系統針對不同硬件平臺進行了定制優化:

      1.LoPA-Dist-NV(CUDA):面向低延遲場景。采用靜態 KV Cache 和獨創兩階段更新協議(Pre-Write & Commit-Winner-Cache),確保分支切換時的緩存一致性。

      2.LoPA-Dist-Ascend(Ascend 910C):面向高吞吐服務場景。采用混合并行策略(TP+BP),結合圖編譯技術融合算子,異步調度,以及量化機制,大幅降低 Kernel 啟動開銷。



      圖 5:LoPA 的并行度擴展曲線。在 GSM8K 和 HumanEval+ 上,LoPA 分別將 D2F-Dream 和 D2F-DiffuCoder 的 TPF 分別擴展至高達 10.1 和 8.3,并保持和基線相當的性能。

      實驗結果:速度與質量的雙重提升

      并行度:單步突破 10 Token

      LoPA 在 SOTA 擴散語言模型 D2F 上進行了實驗。實驗結果表明,隨著前瞻分支數量的增加,模型的 TPF 呈現顯著上升趨勢。在 GSM8K 任務上,LoPA 將 D2F-Dream 的 TPF 推高至 10.1,大幅縮短了總推理步數。



      表 1:LoPA 集成 D2F-Dream 的性能。LoPA 集成的 D2F-Dream 在多個基準測試中實現了保持精度的 TPF 提升。



      表 2:LoPA 集成 D2F-Diffucoder 的性能。LoPA 集成的 D2F-DiffuCoder 在代碼任務中實現了保持精度的 TPF 提升。

      系統吞吐量

      在系統層面,LoPA-Dist 展現了優異的擴展能力。在華為 Ascend 910C 平臺上,系統實現了 1073.86 tokens/s 的峰值吞吐量。



      表 3:LoPA 系統性能。結果表明,我們的系統能夠有效地將算法并行性(高 TPF)轉化為顯著的實際運行時間加速,在專用的 LoPA-Dist-Ascend 引擎上實現了超過 1000 token/s 的平均吞吐量。

      總結與展望

      LoPA 通過算法與系統的協同設計,成功突破了 dLLM 推理的并行度瓶頸,證明了非自回歸模型在保持高性能的同時,能夠實現遠超傳統模型的推理速度。團隊表示,未來將進一步探索 LoPA 在 SDAR 等更多 dLLM 架構上的應用,推動高效生成模型的落地。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      【無言以對】一肖①碼001正確解答

      【無言以對】一肖①碼001正確解答

      壹禾說球
      2026-01-01 01:43:59
      2025年,俄向烏克蘭發射超10萬架無人機和2400枚導彈

      2025年,俄向烏克蘭發射超10萬架無人機和2400枚導彈

      桂系007
      2025-12-31 23:17:28
      除龐家之外,南潯“四象”還有哪三家?他們的后人如今發展如何?

      除龐家之外,南潯“四象”還有哪三家?他們的后人如今發展如何?

      歷史縱觀
      2025-12-30 20:45:19
      離譜!死者兜里裝9張證件,警方一張沒看到!把他當無名氏放了一年...

      離譜!死者兜里裝9張證件,警方一張沒看到!把他當無名氏放了一年...

      英國那些事兒
      2025-12-30 23:31:58
      英超最新積分戰報:曼聯爆冷,維拉潰敗,切爾西掉鏈子

      英超最新積分戰報:曼聯爆冷,維拉潰敗,切爾西掉鏈子

      足球狗說
      2025-12-31 06:27:16
      這一次,國家真的聽了盧麒元的話,盧麒元真的開了個好處方。

      這一次,國家真的聽了盧麒元的話,盧麒元真的開了個好處方。

      放開他讓wo來
      2025-12-23 08:51:40
      終于明白了!為啥農民寧愿斷繳醫保,也不愿再掏這400塊錢?

      終于明白了!為啥農民寧愿斷繳醫保,也不愿再掏這400塊錢?

      復轉這些年
      2025-12-25 23:30:29
      陳云有5個孩子,都擔任過什么職務?

      陳云有5個孩子,都擔任過什么職務?

      祁州校尉
      2025-12-30 11:30:06
      壟斷行業多年,如今光環已經黯淡!一旦煙草行業倒了,軍費怎么辦

      壟斷行業多年,如今光環已經黯淡!一旦煙草行業倒了,軍費怎么辦

      近史博覽
      2025-12-29 19:12:15
      2010年,劉強東給身價400億的張磊連打7個電話借錢7500萬美元

      2010年,劉強東給身價400億的張磊連打7個電話借錢7500萬美元

      忠于法紀
      2025-12-31 09:12:00
      中雪大雪暴雪,要來了!請天津人元旦出行注意!

      中雪大雪暴雪,要來了!請天津人元旦出行注意!

      天津人
      2025-12-31 14:58:08
      男人注意:女人若有過很多男人,多半有這5個表現,別傻傻看不清

      男人注意:女人若有過很多男人,多半有這5個表現,別傻傻看不清

      伊人河畔
      2025-12-04 11:27:19
      能否延續?曼城各項賽事對桑德蘭豪取8連勝

      能否延續?曼城各項賽事對桑德蘭豪取8連勝

      懂球帝
      2026-01-01 00:57:08
      CBA官方!曾凡博正式完成注冊 元旦京粵大戰復出迎回歸首秀

      CBA官方!曾凡博正式完成注冊 元旦京粵大戰復出迎回歸首秀

      醉臥浮生
      2025-12-31 10:53:15
      臺當局成立應變中心,“坦克冒煙”上熱搜

      臺當局成立應變中心,“坦克冒煙”上熱搜

      上觀新聞
      2025-12-31 06:42:07
      從13億到1.9億古天樂乘車論成反諷《尋秦記》觀眾只認作品不認人

      從13億到1.9億古天樂乘車論成反諷《尋秦記》觀眾只認作品不認人

      陌識
      2026-01-01 00:50:41
      CBA|里勒復出 北控客場爆發以一場勝利結束2025

      CBA|里勒復出 北控客場爆發以一場勝利結束2025

      北青網-北京青年報
      2025-12-31 23:04:22
      上海:明起存量個人住房公積金貸款將執行新利率

      上海:明起存量個人住房公積金貸款將執行新利率

      澎湃新聞
      2025-12-31 18:37:04
      特斯拉“車頂維權”女車主被限高,獨家回應:會盡快按程序付給法院

      特斯拉“車頂維權”女車主被限高,獨家回應:會盡快按程序付給法院

      貝殼財經
      2025-12-31 14:47:04
      壓力山大的香港人,竟然全球最長壽!背后原因終于找到了!

      壓力山大的香港人,竟然全球最長壽!背后原因終于找到了!

      港港地
      2025-12-16 21:17:30
      2026-01-01 02:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12031文章數 142525關注度
      往期回顧 全部

      科技要聞

      老羅,演砸了,也封神了?

      頭條要聞

      日企代表團推遲原定訪華行程 外交部回應

      頭條要聞

      日企代表團推遲原定訪華行程 外交部回應

      體育要聞

      吉達聯合3-1新未來城體育,艾哈邁德-加姆迪破門,貝爾溫傳射

      娛樂要聞

      官宣才兩天就翻車?七七被連環爆料

      財經要聞

      高培勇:分配制度改革是提振消費的抓手

      汽車要聞

      凱迪拉克純電中型SUV 售價不足24萬/33寸曲面屏

      態度原創

      家居
      本地
      手機
      藝術
      公開課

      家居要聞

      無形有行 自然與靈感詩意

      本地新聞

      即將過去的2025年,對重慶的影響竟然如此深遠

      手機要聞

      三星Galaxy S26 Ultra:藥丸相機島+圓角邊框,配置細節也清晰了

      藝術要聞

      中國博物館全書!看遍中國8000年頂流審美

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产超碰无码最新上传| 国产亚洲精品综合-黄色永久免费-成人AV| 一区二区三区成人| 男人天堂2025| 91免费视频观看| 无码视频区| 国产精品人妻系列21p| 波多野结衣在线播放| 西西人体大胆午夜视频| 熟女[21p]| 三级国产在线观看| 欧洲熟妇色| 91久久精品视频| 亚洲色欲色欲天天天www| 国产精品区免费视频| 丰满的女邻居2| 精品91在线| 亚洲欲妇| A成片人| 红桃视频成人传媒| 97久久天天综合色天天综合色hd | 无码人妻熟妇av又粗又大| 国产亚州精品女人久久久久久| 丁香五月激情图片| 精品无码久久久久国产电影| 九龙城区| 成人喷水?亚洲一区无码| 韩国无码av片在线观看网站| 成A人片亚洲日本久久| 岳普湖县| 国产成人av乱码在线观看| 亚洲欧美日韩在线不卡| 人人操超碰| 休宁县| 成人无码www在线看免费| 污污内射在线观看一区二区少妇| 国产农村一国产农村无码毛片| 久久国产精品老女人| 制服丝袜亚洲在线| 荥阳市| 尤物yw193无码点击进入|