<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      微信煉出擴(kuò)散語(yǔ)言模型,vLLM部署AR模型3倍加速,低熵場(chǎng)景超10倍

      0
      分享至



      騰訊微信 AI 團(tuán)隊(duì)提出 WeDLM(WeChat Diffusion Language Model),通過在標(biāo)準(zhǔn)因果注意力下實(shí)現(xiàn)擴(kuò)散式解碼,在數(shù)學(xué)推理等任務(wù)上實(shí)現(xiàn)相比 vLLM 部署的 AR 模型 3 倍以上加速,低熵場(chǎng)景更可達(dá) 10 倍以上,同時(shí)保持甚至提升生成質(zhì)量。

      引言

      自回歸(AR)生成是當(dāng)前大語(yǔ)言模型的主流解碼范式,但其逐 token 生成的特性限制了推理效率。擴(kuò)散語(yǔ)言模型(Diffusion LLMs)通過并行恢復(fù)多個(gè) mask token 提供了一種替代方案,然而在實(shí)踐中,現(xiàn)有擴(kuò)散模型往往難以在推理速度上超越經(jīng)過高度優(yōu)化的 AR 推理引擎(如 vLLM)。

      問題的關(guān)鍵在于:大多數(shù)擴(kuò)散語(yǔ)言模型采用雙向注意力機(jī)制,這與標(biāo)準(zhǔn)的 KV 緩存機(jī)制不兼容,導(dǎo)致并行預(yù)測(cè)的優(yōu)勢(shì)無(wú)法轉(zhuǎn)化為實(shí)際的速度提升。

      近日,騰訊微信 AI 團(tuán)隊(duì)提出了WeDLM(WeChat Diffusion Language Model),這是首個(gè)在工業(yè)級(jí)推理引擎(vLLM)優(yōu)化條件下,推理速度超越同等 AR 模型的擴(kuò)散語(yǔ)言模型。



      • 論文標(biāo)題:WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference
      • 論文作者:劉璦瑋、何明樺、曾少勛、張思鈞、張林昊、武楚涵、賈巍、劉源、周霄、周杰(騰訊微信 AI)
      • 項(xiàng)目主頁(yè):https://wedlm.github.io
      • GitHub:https://github.com/tencent/WeDLM
      • 模型權(quán)重:https://huggingface.co/collections/tencent/wedlm

      以下是模型效果:



      上圖展示了vLLM 部署的 Qwen3-8B-Instruct(左) 與 WeDLM-8B-Instruct(右) 在相同 prompt 下的實(shí)時(shí)生成對(duì)比。可以直觀看到,WeDLM 的生成速度明顯更快。

      核心思路:讓擴(kuò)散解碼兼容 KV 緩存

      WeDLM 的核心洞察是:mask 恢復(fù)并不需要雙向注意力。擴(kuò)散式解碼只需要讓每個(gè) mask 位置能夠訪問所有已觀測(cè)的 token,這完全可以在標(biāo)準(zhǔn)因果注意力下實(shí)現(xiàn)。

      研究團(tuán)隊(duì)提出了一個(gè)關(guān)鍵指標(biāo) ——前綴可緩存性(Prefix Cacheability):在 KV 緩存解碼中,只有形成連續(xù)左到右前綴的 token 才能被緩存復(fù)用。因此,真正影響推理效率的不是「每步預(yù)測(cè)多少 token」,而是「有多少預(yù)測(cè)能夠轉(zhuǎn)化為可緩存的前綴」。



      圖:WeDLM-8B 在數(shù)學(xué)推理任務(wù)上實(shí)現(xiàn)約 3 倍加速,同時(shí)在準(zhǔn)確率和推理速度上顯著超越 LLaDA、Dream 等擴(kuò)散模型。

      技術(shù)方案

      拓?fù)渲嘏判颍═opological Reordering)

      WeDLM 通過拓?fù)渲嘏判蛟诒3忠蚬⒁饬Φ耐瑫r(shí),讓 mask 位置能夠訪問完整的觀測(cè)上下文。具體而言,將所有已觀測(cè) token 移動(dòng)到物理序列的前端,同時(shí)通過 RoPE 位置編碼保留其邏輯位置。這樣,在標(biāo)準(zhǔn)因果 mask 下,每個(gè)待預(yù)測(cè)位置都能看到所有已知信息。



      雙流掩碼(Dual-Stream Masking)

      為縮小訓(xùn)練與推理的分布差異,WeDLM 設(shè)計(jì)了雙流訓(xùn)練策略:構(gòu)建一個(gè)干凈的「記憶流」和一個(gè)帶 mask 的「預(yù)測(cè)流」,兩者共享位置編碼。預(yù)測(cè)流中的每個(gè) block 從記憶流獲取干凈的歷史上下文,而非可能帶噪的中間預(yù)測(cè)結(jié)果。

      流式并行解碼(Streaming Parallel Decoding)

      推理階段,WeDLM 采用流式并行解碼策略:

      • 距離懲罰機(jī)制:優(yōu)先解碼靠左的位置,促進(jìn)左到右的前綴增長(zhǎng)
      • 即時(shí)緩存:在因果注意力下,已解碼 token 立即成為有效緩存
      • 動(dòng)態(tài)滑動(dòng)窗口:持續(xù)填充新的 mask 位置,避免 block 邊界的等待開銷



      圖:傳統(tǒng) block 解碼需要等待整個(gè) block 完成才能提交,而 WeDLM 的流式解碼可以即時(shí)提交已解析的前綴。

      實(shí)驗(yàn)結(jié)果

      生成質(zhì)量

      WeDLM 基于 Qwen2.5-7B 和 Qwen3-8B 進(jìn)行訓(xùn)練,使用 100B token 進(jìn)行繼續(xù)預(yù)訓(xùn)練,10B token 進(jìn)行 SFT。



      在 base 模型評(píng)測(cè)中,WeDLM-8B 平均得分 74.72,超越 Qwen3-8B(72.61)2.1 個(gè)點(diǎn)。在數(shù)學(xué)推理任務(wù)上提升尤為顯著:GSM8K 提升 4.2 個(gè)點(diǎn),MATH 提升 2.8 個(gè)點(diǎn)。



      在 instruct 模型評(píng)測(cè)中,WeDLM-8B-Instruct 平均得分 77.53,超越 Qwen3-8B-Instruct(75.12)2.4 個(gè)點(diǎn),也領(lǐng)先于 SDAR-8B-Instruct(74.22)等擴(kuò)散模型。

      推理速度

      關(guān)鍵亮點(diǎn):所有速度對(duì)比均基于 vLLM 部署的 AR 模型基線,而非未優(yōu)化的實(shí)現(xiàn)。



      研究團(tuán)隊(duì)在論文中展示了不同熵值場(chǎng)景下的速度差異:

      • 低熵場(chǎng)景(如計(jì)數(shù)任務(wù)):由于輸出高度可預(yù)測(cè),模型可以大膽并行預(yù)測(cè)并接受多個(gè) token,實(shí)測(cè)達(dá)到 1673.3 tokens/s
      • 中熵場(chǎng)景(如數(shù)學(xué)推導(dǎo)):結(jié)構(gòu)化的推理步驟仍然具有較好的可預(yù)測(cè)性,實(shí)測(cè) 745.2 tokens/s
      • 高熵場(chǎng)景(如開放問答):語(yǔ)義多樣性高,并行接受率下降,實(shí)測(cè) 197.8 tokens/s

      快速上手

      安裝方式非常簡(jiǎn)單,只需通過 pip 從 GitHub 安裝即可。安裝完成后,可使用 Python API 快速調(diào)用模型進(jìn)行推理。詳細(xì)的使用文檔和示例代碼請(qǐng)參見項(xiàng)目 GitHub 主頁(yè)。

      總結(jié)

      WeDLM 的貢獻(xiàn)可以歸納為:

      • 因果擴(kuò)散框架:在標(biāo)準(zhǔn)因果注意力下實(shí)現(xiàn) mask 恢復(fù),天然兼容 KV 緩存和現(xiàn)有推理基礎(chǔ)設(shè)施(FlashAttention、PagedAttention、CUDA Graphs 等)
      • 流式并行解碼:通過距離懲罰和動(dòng)態(tài)滑動(dòng)窗口,最大化前綴提交率
      • 首次在速度上超越工業(yè)級(jí)推理引擎部署的 AR 模型:在 vLLM 優(yōu)化條件下的公平對(duì)比中,數(shù)學(xué)推理實(shí)現(xiàn) 3 倍以上加速,低熵場(chǎng)景超過 10 倍

      研究團(tuán)隊(duì)指出,這項(xiàng)工作表明「前綴可緩存性」應(yīng)當(dāng)作為并行文本生成的一等設(shè)計(jì)目標(biāo)。未來(lái)的擴(kuò)散語(yǔ)言模型應(yīng)更多地被視為高效的多 token 預(yù)測(cè)機(jī)制 —— 并行生成 token 的價(jià)值,取決于這些 token 能多快地轉(zhuǎn)化為可緩存的前綴。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      夫妻性生活技巧的重要性:尋找“爽”的秘訣

      夫妻性生活技巧的重要性:尋找“爽”的秘訣

      精彩分享快樂
      2026-01-08 00:05:03
      總裁夫人董花花,她吃了回頭草,沒敢離婚,也沒成大女主

      總裁夫人董花花,她吃了回頭草,沒敢離婚,也沒成大女主

      涼湫瑾言
      2025-12-25 21:45:29
      馬杜羅淪為階下囚,西方質(zhì)問中國(guó)有能力保護(hù)朋友嗎?中方霸氣反制

      馬杜羅淪為階下囚,西方質(zhì)問中國(guó)有能力保護(hù)朋友嗎?中方霸氣反制

      健身狂人
      2026-01-07 17:03:49
      不要再隨意猜測(cè)楊蘭蘭的身份了,釋放的信號(hào)很明顯了

      不要再隨意猜測(cè)楊蘭蘭的身份了,釋放的信號(hào)很明顯了

      李昕言溫度空間
      2025-08-20 15:01:53
      韓國(guó)女星自爆剛出道因身材好被迫裸露…

      韓國(guó)女星自爆剛出道因身材好被迫裸露…

      奮斗在韓國(guó)
      2026-01-05 19:40:50
      看見佟麗婭大腿上那兩道線條了嗎?

      看見佟麗婭大腿上那兩道線條了嗎?

      小光侃娛樂
      2026-01-03 15:40:02
      中國(guó)的社零增速,已經(jīng)連降了6個(gè)月,轉(zhuǎn)負(fù)甚至就在眼前

      中國(guó)的社零增速,已經(jīng)連降了6個(gè)月,轉(zhuǎn)負(fù)甚至就在眼前

      子業(yè)一說財(cái)經(jīng)
      2025-12-23 15:21:31
      對(duì)越反擊戰(zhàn)期間,先前有 15 個(gè)國(guó)家明確站隊(duì)支持越南,然而戰(zhàn)爭(zhēng)正式打響后,它們卻不約而同地選擇了緘口不言,這是為何?

      對(duì)越反擊戰(zhàn)期間,先前有 15 個(gè)國(guó)家明確站隊(duì)支持越南,然而戰(zhàn)爭(zhēng)正式打響后,它們卻不約而同地選擇了緘口不言,這是為何?

      史海孤雁
      2025-12-19 17:46:17
      人生建議:不要跟任何人,說太多話

      人生建議:不要跟任何人,說太多話

      木言觀
      2025-12-26 07:35:08
      中信證券:商務(wù)部加強(qiáng)兩用物項(xiàng)對(duì)日本出口管制,看好氧化鋯的投資機(jī)會(huì)

      中信證券:商務(wù)部加強(qiáng)兩用物項(xiàng)對(duì)日本出口管制,看好氧化鋯的投資機(jī)會(huì)

      證券時(shí)報(bào)
      2026-01-07 08:43:07
      2026住房好消息來(lái)了,住4樓以上的朋友大受益!這兩類人直接吃香

      2026住房好消息來(lái)了,住4樓以上的朋友大受益!這兩類人直接吃香

      夜深愛雜談
      2026-01-05 22:17:47
      大羅談客串國(guó)王聯(lián)賽:這絕對(duì)不行,我現(xiàn)在連打網(wǎng)球都渾身疼

      大羅談客串國(guó)王聯(lián)賽:這絕對(duì)不行,我現(xiàn)在連打網(wǎng)球都渾身疼

      懂球帝
      2026-01-07 18:00:20
      美國(guó):不許用美國(guó)技術(shù)的光刻機(jī)!中國(guó):不許使用中國(guó)資源的光刻機(jī)

      美國(guó):不許用美國(guó)技術(shù)的光刻機(jī)!中國(guó):不許使用中國(guó)資源的光刻機(jī)

      詩(shī)意世界
      2025-11-15 13:19:32
      1980年,王光美拿過追悼會(huì)名單,狠狠劃掉幾人,卻添上個(gè)正在挨整的將軍:他對(duì)咱家有恩

      1980年,王光美拿過追悼會(huì)名單,狠狠劃掉幾人,卻添上個(gè)正在挨整的將軍:他對(duì)咱家有恩

      源溯歷史
      2026-01-07 19:28:08
      0:4慘敗小勒布倫!20歲林詩(shī)棟多哈賽遇克星,頭號(hào)種子沖冠懸了?

      0:4慘敗小勒布倫!20歲林詩(shī)棟多哈賽遇克星,頭號(hào)種子沖冠懸了?

      阿晞體育
      2026-01-07 11:30:11
      澳門這一夜,袒胸露乳的女明星們,敗給了“全裹”出鏡的龔慈恩

      澳門這一夜,袒胸露乳的女明星們,敗給了“全裹”出鏡的龔慈恩

      星宿影視鴨
      2026-01-06 18:36:38
      光纜第一股,利潤(rùn)大增600%!

      光纜第一股,利潤(rùn)大增600%!

      新浪財(cái)經(jīng)
      2026-01-07 18:51:49
      莫言:夫妻能過就好好過,最好別離婚,你漸漸就會(huì)發(fā)現(xiàn),跟誰(shuí)過都是一個(gè)鬼樣,或許更糟糕

      莫言:夫妻能過就好好過,最好別離婚,你漸漸就會(huì)發(fā)現(xiàn),跟誰(shuí)過都是一個(gè)鬼樣,或許更糟糕

      北極星心理
      2025-12-31 06:50:45
      馬斯克下一個(gè)宏圖!吃透【腦機(jī)接口+機(jī)器人】最核心的 8 家上市公司

      馬斯克下一個(gè)宏圖!吃透【腦機(jī)接口+機(jī)器人】最核心的 8 家上市公司

      飛跑的鹿
      2026-01-05 20:47:50
      扁鵲臨終前頓悟:知此訣竅者,百病皆除可得痊愈

      扁鵲臨終前頓悟:知此訣竅者,百病皆除可得痊愈

      阿珂讀書
      2025-02-07 09:51:05
      2026-01-08 03:11:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12075文章數(shù) 142531關(guān)注度
      往期回顧 全部

      科技要聞

      精華!黃仁勛CES記者會(huì):揭秘新款大殺器

      頭條要聞

      美軍扣押俄潛艇護(hù)航的油輪 俄羅斯外交部回應(yīng)

      頭條要聞

      美軍扣押俄潛艇護(hù)航的油輪 俄羅斯外交部回應(yīng)

      體育要聞

      賣水果、搬磚的小伙,與哈蘭德爭(zhēng)英超金靴

      娛樂要聞

      《馬背搖籃》首播,革命的樂觀主義故事

      財(cái)經(jīng)要聞

      農(nóng)大教授科普:無(wú)需過度擔(dān)憂蔬菜農(nóng)殘

      汽車要聞

      燃油駕趣+智能電感雙Buff 試駕全新奧迪Q5L

      態(tài)度原創(chuàng)

      房產(chǎn)
      本地
      親子
      時(shí)尚
      家居

      房產(chǎn)要聞

      最新!海口二手房,漲價(jià)房源突然猛增30%

      本地新聞

      “閩東利劍·惠民安商”高效執(zhí)行專項(xiàng)行動(dòng)

      親子要聞

      雀巢召回多國(guó)嬰兒配方奶粉,涉及中國(guó)市場(chǎng)71個(gè)批次

      李夢(mèng)系穿搭,就這么養(yǎng)成了

      家居要聞

      寧?kù)o不單調(diào) 恰到好處的美

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产成人精品综合| 国产精品久久无中文字幕 | 国产粉嫩小泬在线观看泬| 亚洲成人影片| 无码人妻精品一区二区三区不卡 | 天天爽夜夜爽视频精品| 丰满少妇在线观看网站| 黑巨人与欧美精品一区| 美女裸奶100%无遮挡免费网站| 欧美偷拍视频| 酒店大战丝袜高跟鞋人妻| 国产熟女AV| 91狼友社| 自拍偷拍欧美| 亚洲伊人久久综合网站| 国产日韩精品视频无码| 人妻丰满熟妇无码区免费| 亚洲精品国产suv| 久久夜色精品国产噜噜亚洲sv| 精品无码av无码免费专区| 2025无码| 成年女人免费视频播放体验区| 欧美一区二区三区在线观看| 在线综合人妻| 尤物一区| 色欲人妻综合网| 玖玖精品| 天天爽夜夜爽天天做夜夜做| 97精品国产手机| 国产91精品对白露脸全集观看| 在线天堂资源www在线中文| 九色最新网址| 伊人蕉影院久亚洲高清| 德阳市| 色琪琪丁香婷婷综合久久| 99在线观看视频| 2018av天堂在线视频精品观看| 熟妇自搞| 自拍偷自拍亚洲精品被多人伦好爽 | 天堂成人网| 一本加勒比HEZYO黑人|