<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      擴散語言模型一口氣沖到100B規模?!首份技術報告揭曉背后秘密

      0
      分享至


      來源 | 機器之心

      萬萬沒想到,年初還是個小眾方向的「擴散語言模型(dLLM)」,現在已經被擴展到千億參數的規模了。

      前段時間,我們在 HuggingFace 頁面發現了兩個新模型:LLaDA2.0-mini 和 LLaDA2.0-flash。它們來自螞蟻集團與人大、浙大、西湖大學組成的聯合團隊,都采用了 MoE 架構。前者總參數量為 16B,后者總參數量則高達 100B—— 在「擴散語言模型」這個領域,這是從未見過的規模。


      更令人欣慰的是,模型變大了,也確實變強了:在涵蓋知識、推理、編碼、數學、智能體與對齊幾大維度的 47 個基準測試中,LLaDA2.0-flash 平均得分 73.18,與強 AR(自回歸)模型 Qwen3-30B-A3B-Instruct-2507(73.60)持平,在編碼(如 HumanEval、MBPP)、智能體(BFCL)等復雜任務上優勢顯著。


      長期以來,自回歸生成范式在大模型領域始終占據主導地位,這種從前到后依次生成下一個 token 的方法曾被寄予厚望。然而,其固有弊端也逐漸顯現:長文本生成的計算成本較高、推理速度較慢,且難以捕捉 token 之間的雙向依賴關系。一旦前期生成的內容出現錯誤,不僅無法直接修正,后續輸出也會受到干擾,最終導致誤差累積。


      dLLM 的成功擴展讓人們看到了另一條路的可行性。更值得注意的是,這類模型的快速演進并不是沿著單一路線不斷推高規模,而是來自研究者們「多線并進」的探索。

      就在今年 9 月,LLaDA 系列模型的研究者剛剛驗證了 MoE 架構下從頭訓練 dLLM 的可行性,推出了 7B 的 LLaDA-MoE,這為擴散范式提供了新的實現方式。而僅僅三個月后,團隊又在另一條路線 —— 從成熟的 AR 模型平滑遷移到擴散框架 —— 上取得突破,直接將模型規模擴展到了 100B。


      LLaDA2.0 生成效果演示??梢钥吹?,模型會在多個位置并行生成,而且已生成內容可以修改。

      這背后涉及哪些關鍵的技術選擇?哪些方法在 dLLM 中能 work?在最近發布的技術報告中,LLaDA2.0 幕后團隊披露了很多細節。


      • 報告標題:LLaDA2.0: Scaling Up Diffusion Language Models to 100B

      • 報告鏈接:https://github.com/inclusionAI/LLaDA2.0/blob/main/tech_report.pdf

      • HuggingFace 鏈接:https://hf.co/collections/inclusionAI/llada-20


      將 dLLM 擴展到 100B

      —— 一個公認的難題

      最近,有研究發現,在數據不夠多的情況下,dLLM 會越訓越強,最后反超傳統自回歸模型。訓練得越久,優勢越明顯。如果數據更豐富或質量更高,這個「反超」會來得更晚;如果模型更大,反超會來得更早。


      這些證據的出現讓「訓練 dLLM」這件事變得越來越有吸引力。但是,怎么把 dLLM「做大做強」卻是一個公認的難題。在過去的一兩年間,研究者們已經嘗試了不少方法。

      首先是從頭開始訓練。此前的 LLaDA、LLaDA-MoE 都是這一方向的成功嘗試,證明了從頭訓練的 dLLM 性能可以接近同尺寸的 AR 模型,并且在加入 MoE 后,dLLM 還能更高效、更強。不過,受限于可用數據量、基礎設施成熟度、計算成本、訓練周期等因素,從頭訓練的 dLLM 通常規模較小(≤8B),在整體性能上仍落后于最先進的 AR 模型。

      其次是從已經訓練好的 AR 模型出發,讓 dLLM 繼承其知識與能力從而減少訓練成本并縮小性能差距。這一方向已經出現了多個代表性工作,包括 DiffusionLLaMA、Dream-7B、RND1、Block DLM 等。它們通過掩碼退火、block diffusion 等方法,將 AR 模型預訓練好的語言能力「挪」到擴散結構中。但這類嘗試也沒有突破 30B 的規模。再加上 block diffusion 本身的訓練效率不高,很難把這種方法直接擴展到大規模模型的海量語料訓練中。

      最后是后訓練階段的努力微調方面,已有工作證明 dLLM 經過 SFT 后可以在代碼生成、復雜規劃等任務上媲美頂級 AR 模型。強化學習方面,由于 dLLM 的對數似然難以計算,研究者不得不另辟蹊徑設計新算法,甚至訓出了首個具備長鏈思維推理能力的 dLLM。推理加速方面,通過動態剪枝或混合 AR - 擴散范式,dLLM 的推理速度已首次超越同規模 AR 模型。但總體而言,后訓練研究仍處于起步階段,這些技術如何協同、如何擴展到千億參數規模,都還是開放問題。

      LLaDA2.0 模型的出現,給這些問題提供了一個解決思路。


      千億級擴散模型的穩定訓練

      LLaDA2.0 給出了更優解

      和之前的 LLaDA-MoE 等模型不同,LLaDA2.0 沒有選擇從頭訓練 dLLM,而是把已有的 AR 模型「平滑地」轉化成擴散模型,并在這個基礎上做大規模訓練與對齊。

      為了完成這種轉化,LLaDA2.0 提出了一套系統性的解決方案。從訓練范式的重構、預訓練與后訓練流程的強化協同,到訓練與推理基礎設施的適配與優化,給出了區別于以往方法的獨特實現路徑。

      整體來講,LLaDA2.0 通過構建一個分段式、可擴展的訓練體系,高效完成了從 AR 模型轉化為 dLLM 的目標。

      如下圖 2 所示,首先通過持續預訓練(CPT)將一個 AR 基座模型重建為掩碼擴散語言模型(MDLM),并使其能夠學習雙向去噪能力,從而在保持原 AR 模型表征幾何結構的前提下平滑過渡到擴散范式。

      接下來,在已訓練的 MDLM 基礎上引入了塊擴散預訓練(Block Diffusion Pre-training)。此時,模型不再針對單個 token,而是訓練其對連續文本片段(即塊)的去噪。從 token 到塊的轉變,顯著增強了生成的長程一致性,并帶來更高的計算效率。

      最后,在兼具 token 與塊兩級 AR 生成能力之后,模型通過后訓練(包括 SFT 與 DPO)具備了更強的人類意圖與指令遵從特性,并更能滿足下游任務的需求。經過這一階段,擴散預訓練過程中獲得的強大生成能力可以高效地轉化為實際任務中的性能表現。


      LLaDA2.0 訓練流程圖。

      接下來,我們將逐一剖析這些關鍵環節。

      持續預訓練

      由于 AR 模型的因果建模方式與 dLLM 的雙向去噪機制存在天然差異,前者到后者的轉化并不是簡單替換訓練目標就能完成。為此,LLaDA2.0 采取了 Warmup–Stable–Decay(WSD)的持續預訓練策略

      其中在 Warmup(熱身)階段,團隊將 Ling-mini-2.0(16B)等 AR 基座模型視為塊大小 = 1 的塊擴散語言模型(BDLM)起點,并按照「1→4→32 → 64 → 4096」逐步增加塊大小。塊大小的每次調整在中等規模數據上進行訓練,以確保模型平穩過渡。在塊大小達到最大 4096 時,BDLM 轉化為標準的掩碼擴散語言模型(MDLM),完成從因果生成向全局雙向去噪的結構性遷移。

      接下來是 Stable(穩定)階段。在塊大小固定為 4096 且模型轉化為全局雙向去噪范式之后,在大規模語料上進行 MDLM 訓練,以掌握擴散式生成與雙向上下文建模能力。

      完成 MDLM 訓練之后,進入到 Decay(衰減)階段團隊逐步將塊大小從 4096 減少到更適合推理的尺寸(如 32),從而轉換回高效的 BDLM。這樣一來,模型在 MDLM 階段學到的全局上下文知識被蒸餾回更緊湊的塊級結構中,讓擴散式的雙向語義能力與塊級生成的推理效率二者兼得。

      此外,由于訓練過程中會將多個文檔拼接成長序列,這會在語義無關的文本之間造成長程依賴。為此,團隊引入了文檔級注意力掩碼(Document-level Attention Mask),可以避免這種跨文檔干擾,防止語義污染,并確保雙向建模穩定性。

      為了進一步增強 BDLM 的泛化性和穩健性,團隊又采用了 Top-k 檢查點融合策略。在預訓練結束后,根據困惑度等驗證指標選取表現最優的 k 個模型檢查點,并對它們的權重、偏置等參數進行算數平均,得到了更穩健的 BDLM 初始化。

      一整套流程走下來,LLaDA2.0 為行業內千億規模的擴散模型訓練提供了可借鑒的穩定解決方案。

      后訓練

      在完成從 AR 到 dLLM 范式的持續預訓練之后,LLaDA2.0 還進行了系統化的后訓練,主要包括以下三個核心環節。

      一是 SFT(監督微調):在預訓練階段完成之后,通過 SFT 來對齊用戶指令。過程中引入多項關鍵改進:對序列長度進行塊對齊,確保與塊級注意力結構兼容;利用「Mask ratio bandwidth」避免近乎無噪聲和過度噪聲樣本造成的訓練無效與梯度不穩定;利用「Complementary Masking」,保證同一序列的所有 token 在一個訓練 batch 中至少被學習一次,大幅提升樣本利用率與收斂速度;通過覆蓋推理、通用與工業三類數據,確保模型能力分布均衡而不偏科。

      二是 CAP(置信度感知并行訓練):通過在訓練中添加額外置信度損失,CAP 為正確預測的 token 引入了熵最小化目標,提升模型預測置信度,并實現更快并行解碼,生成質量與推理速度之間取得了良好權衡。

      三是 DPO(直接偏好對齊):使模型更好地對齊人類偏好。團隊構建了涵蓋通用、數學、指令遵循等多個領域的偏好數據集,共包含 150 萬對偏好樣本。另外將重構損失的證據下界(Evidence Lower Bound,ELBO)作為對數似然替代,構建出適配擴散模型的 DPO 框架。

      通過三項后訓練技術的協同,LLaDA2.0 在能力塑造、推理效率提升與人類偏好對齊之間形成了完善的優化體系,使其從通用的擴散式生成模型進一步邁向高性能實用型大模型。

      訓練與推理基礎設施

      為了進一步解決訓練穩定性、大規??蓴U展性和推理效率問題,LLaDA2.0 分別在預訓練、后訓練與推理階段進行了針對性的工程優化與機制設計。

      在預訓練階段,團隊將 Megatron-LM 用作訓練后端,并結合數據并行(DP)、流水線并行(PP)、張量并行(TP)、上下文并行(CP)與專家并行(EP)的多并行策略,使得千億級模型在長序列與復雜注意力結構下仍能保持高吞吐與強擴展性。

      此外,團隊通過引入基于 cuDNN 的注意力實現,為任意塊擴散訓練帶來顯著加速。在訓練 LLaDA2.0-mini 時,相較于 TransformerEngine 中未融合的注意力實現,這一做法實現了 1.3 倍 + 的端到端加速,以及 90%+ 的注意力層顯存節省。團隊還通過在「masked token embedding」輸出中添加獨立高斯噪聲,解決了擴散訓練初期的數值不穩定問題。


      預訓練階段的多并行策略

      在后訓練階段,團隊通過專為 dLLM 提供高效訓練范式的開源庫 dFactory 實現了復雜的并行化策略。同時采用「數據打包」策略,將多個短序列拼接在一起,提升數據吞吐與硬件利用率。

      在推理階段,團隊對原為 dLLM 推理框架的 dInfer 進行改造,使其能夠支持塊擴散推理,并在能力實現上更接近 AR 模型。關鍵優化包括有效復用 KV-cache,大幅降低 prefill 開銷;另外,在 SGLang 中加入塊擴散支持,使得 dLLM 也能享受 AR 模型的成熟推理優化生態。

      下圖 3 的結果顯示,在 HumanEval、MBPP、GSM8K、CRUXEval 等基準測試中,LLaDA2.0-flash-CAP 達到了 535 TPS(Token/s),相較于基線 AR 模型(Ling-flash-2.0 與 Qwen3-30B-A3B-Inst-2507)實現最高 2.1 倍推理加速。


      通過大規模訓練、穩定性保障、分布式并行、高效推理框架的適配等多個工程環節的全面優化,LLaDA2.0 有望成為擴散模型實現真正工業級可用的關鍵轉折點。


      性能比肩 AR

      dLLM 的路走通了?

      說了這么多,LLaDA2.0 到底表現如何?

      整體來看,該系列模型不僅具備競爭力,而且在一些關鍵領域展現出接近甚至超越 AR 模型的趨勢。

      先看 LLaDA2.0-mini。它的綜合得分為 64.34,接近同級別 AR 模型 Ling-mini-2.0 的 65.77,證明了擴散路線的基本可行性。值得一提的是,它在一些復雜任務上已經超過了直接對標的 Qwen3-8B,比如 SQuAD 2.0 閱讀理解(86.50)、代碼生成 HumanEval(86.59)。


      再看更大的 LLaDA2.0-flash。它的綜合得分為 73.18,與 Qwen3-30B-A3B-Instruct-2507(73.60)基本持平。而在編碼任務上,它開始展現出更明顯的優勢:HumanEval 94.51、MBPP 88.29、MultiPL-E 74.87,均高于 AR 對手。這一趨勢也延伸到了 Agent 能力(BFCL v3: 75.43)上。


      一個值得關注的現象是:隨著模型規模增大,擴散架構在結構化生成和工具調用上的優勢似乎愈發明顯。

      LLaDA 2.0 的性能表明,擴散語言模型是一條可擴展且有競爭力的技術路線它在通用基準上快速縮小了與 AR 模型的差距,同時在代碼生成、工具使用等復雜任務上展現出超越的潛力。


      100B 之后

      dLLM 未來可期

      作為業內首個沖刺到 100B 參數規模的 dLLM,LLaDA2.0 系列模型的出現無疑給整個領域注入了一針強心劑。

      除了規模本身,LLaDA2.0「將成熟 AR 大模型平滑過渡到擴散框架」的思路同樣值得關注。它表明,不同生成范式并非非此即彼的對立關系,而是可以串聯、融合、相互繼承。這為擴散語言模型的規?;剿魈峁┝艘粭l切實可行的工程路徑,打開了一片更廣闊的設計空間。

      與此同時,越來越多的玩家正在入場,其中不乏馬斯克旗下 xAI 這樣的科技巨頭。


      當然,dLLM 距離真正成熟還有很長的路要走。更大的參數規模、更高效的強化學習與推理范式、更快的解碼速度…… 每一項都是待攻克的難題。但方向已經明確,剩下的只是時間。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      南京博物院院長從靈谷塔七層一躍而下!

      南京博物院院長從靈谷塔七層一躍而下!

      興化論談
      2025-12-19 20:21:07
      “這就是命??!”美國一博主采訪流浪漢,詢問他之前是干什么的?

      “這就是命啊!”美國一博主采訪流浪漢,詢問他之前是干什么的?

      南權先生
      2025-12-26 16:59:33
      大量游戲廳街機流入閑魚!32寸大屏+雙搖桿,二手350塊

      大量游戲廳街機流入閑魚!32寸大屏+雙搖桿,二手350塊

      金科技觀察家
      2025-12-25 18:22:34
      世界上最硬的樹:子彈穿不透,能造飛機潛艇部件,中國在大量收購

      世界上最硬的樹:子彈穿不透,能造飛機潛艇部件,中國在大量收購

      百科密碼
      2025-12-26 14:27:28
      50歲男保姆哭訴:月薪10000,每天要為70歲老太洗頭洗腳,受不了

      50歲男保姆哭訴:月薪10000,每天要為70歲老太洗頭洗腳,受不了

      孢木情感
      2025-12-26 20:45:49
      周大福“牛馬吊墜”被指陰陽打工人,客服:系繁體字,寓意不怕困難好運加倍

      周大?!芭qR吊墜”被指陰陽打工人,客服:系繁體字,寓意不怕困難好運加倍

      極目新聞
      2025-12-26 17:59:39
      Lisa又被罵低俗!穿高衩衣、裸露屁股 網友崩潰:帶壞小孩子

      Lisa又被罵低俗!穿高衩衣、裸露屁股 網友崩潰:帶壞小孩子

      桑葚愛動畫
      2025-12-24 16:21:15
      “城市丟了,但至少勛章已經發出去了”:烏軍庫皮揚斯克大捷

      “城市丟了,但至少勛章已經發出去了”:烏軍庫皮揚斯克大捷

      鷹眼Defence
      2025-12-26 17:59:36
      趙麗穎初中同學爆舊照,整容傳聞不攻自破,網友稱:等比例長大!

      趙麗穎初中同學爆舊照,整容傳聞不攻自破,網友稱:等比例長大!

      阿廢冷眼觀察所
      2025-12-24 07:11:52
      要不是有喜馬拉雅山攔著,這回中國倒大霉了!

      要不是有喜馬拉雅山攔著,這回中國倒大霉了!

      霹靂炮
      2025-12-25 22:40:44
      浙江保安白手起家,今是上海松江首富

      浙江保安白手起家,今是上海松江首富

      說歷史的老牢
      2025-12-26 12:17:21
      乾隆暗訪地方官,知縣家正啃窩頭,乾隆當面嘉獎回京卻下了道密令

      乾隆暗訪地方官,知縣家正啃窩頭,乾隆當面嘉獎回京卻下了道密令

      卡西莫多的故事
      2025-12-17 10:53:51
      圣誕節當天撒手人寰!蘇格蘭傳奇球星去世,曾兩奪歐洲冠軍杯

      圣誕節當天撒手人寰!蘇格蘭傳奇球星去世,曾兩奪歐洲冠軍杯

      全景體育V
      2025-12-26 08:07:36
      湖南一地干部任前公示

      湖南一地干部任前公示

      湖南法治報
      2025-12-26 18:41:04
      春節前,舊事翻篇,新運開啟的三個星座,日子越過越順

      春節前,舊事翻篇,新運開啟的三個星座,日子越過越順

      小晴星座說
      2025-12-26 20:04:04
      翻倍牛股,7連板,歷史新高!

      翻倍牛股,7連板,歷史新高!

      新浪財經
      2025-12-26 16:05:50
      張震岳硬核回懟朱孝天

      張震岳硬核回懟朱孝天

      究竟誰主沉浮
      2025-12-25 20:41:29
      中國網貸公司在印度幾乎全軍覆沒,違約率最高達80%!

      中國網貸公司在印度幾乎全軍覆沒,違約率最高達80%!

      胡華成
      2025-12-24 16:47:03
      曝俄羅斯拒絕美國20點和平計劃!分歧在三大方面

      曝俄羅斯拒絕美國20點和平計劃!分歧在三大方面

      項鵬飛
      2025-12-25 13:48:52
      釘在恥辱柱上!國家文物局出手,這三個跳梁小丑,徹底涼涼

      釘在恥辱柱上!國家文物局出手,這三個跳梁小丑,徹底涼涼

      八斗小先生
      2025-12-24 09:37:51
      2025-12-26 21:39:00
      CSDN incentive-icons
      CSDN
      成就一億技術人
      26214文章數 242203關注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      多名中國女明星已立遺囑 關之琳無子將遺產都留給弟弟

      頭條要聞

      多名中國女明星已立遺囑 關之琳無子將遺產都留給弟弟

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財經要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

      態度原創

      家居
      親子
      旅游
      房產
      數碼

      家居要聞

      格調時尚 智慧品質居所

      親子要聞

      明知懷的是無腦兒,她仍堅持把孩子生下來,原因讓人淚目

      旅游要聞

      一問到底丨十年保護修繕后重新開放 故宮養心殿修了啥

      房產要聞

      炸裂,三亞360億超級清單發布,又一批重大配套要來了!

      數碼要聞

      千元旗艦封神!哈趣H3 Ultra:巨幕畫質+哈曼音質承包全家影音

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 极品美女扒开粉嫩小泬图片| 中文字幕亚洲亚洲精品| 日本欧美大码aⅴ在线播放| 北岛玲中文字幕人妻系列| 国产亚洲精品久久久久久牛牛| 无码www毛色一区二区| 亚洲欧洲AV| 韩国一级毛片中文字幕| 色偷偷偷久久伊人大杳蕉| 亚洲综合色在线| 久久天堂综合亚洲伊人HD妓女| 国产熟妇勾子乱视频| 亚洲精品一区二区三区中文字幕 | 荔波县| 久久久国产精品VA麻豆| 377p欧洲日本亚洲大胆| 亚洲欧美v国产蜜芽tv| 蜜臀AV一区二区三区有限公司| 自拍偷拍第一页| 国产偷窥熟女精品视频大全| yy111111少妇影院免费观看| 超碰免费公开| 国产精品欧美福利久久| 欧美?级毛片一进一出夜本色| 91福利区| 99re6热在线精品视频播放| 东京热无码av男人的天堂| 亚洲中文波霸中文字幕| 人妖TS丝袜脚交| 亚洲爽图| 99久久精品免费看国产电影| 国产精品美女久久久久av福利| 无码人妻AⅤ一区二区三区用会员| 国产19p| 大色欧美| 天天操夜夜操| 麻豆国产成人av高清在线| 日韩A视频| 精品A片| 性无码一区二区三区在线观看| 欧洲av在线|