<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      小眾架構贏麻了:讓100B擴散模型飆出892 tokens/秒的速度!

      0
      分享至

      金磊 發自 凹非寺
      量子位 | 公眾號 QbitAI

      誰能想到啊,在自回歸模型(Autoregressive,AR)當道的現在,一個非主流架構的模型突然殺了回馬槍——

      被長期視為學術玩具的擴散語言模型,直接在復雜編程任務中飆出了892 tokens/秒的速度!



      你沒看錯,當主流大模型還在以幾十token的速度逐字蹦詞時,這個非主流模型已經在100B參數規模上,跑出了如此的速度。

      2025年,螞蟻集團資深技術專家趙俊博曾經帶著LLaDA2.0登上量子位MEET大會的舞臺,而如今,他們的最新版本LLaDA2.1來了,螞蟻技術研究院重磅開源!



      三個月前,在LLaDA2.0時代,這更多是一個充滿挑戰的研究性模型。

      而這一次,LLaDA2.1的誕生,標志著這個路線的歷史性轉折。它不再只是一個“學術研究”,而是真正可用、甚至在效率上更為優越的強大工具。

      那么在整個行業都在卷更大的自回歸模型時,螞蟻到底是怎么低調修了另一條“能跑通的高速公路”的?

      接下來,我們就再一起扒一扒這個非共識技術背后的原理。

      怎么做到的?

      在深入技術之前,我們先得聊聊為什么現在的ChatGPT、Claude們總是慢條斯理。

      因為它們幾乎全部采用自回歸架構,這種模式如同一個不能打草稿的考生,必須從左到右、一字一句地生成文本,寫完即定稿,無法回頭修改。

      而擴散模型的理論優勢在于并行,可以同時處理所有文本位置,理論上能一次成篇,擁有巨大的速度潛力。

      但擴散語言模型在早期一直有個致命傷,那就是容易胡說八道,且缺乏全局一致性。因為并行生成時,各個部分可能是各玩各的,導致前后文邏輯不通。

      為此,螞蟻的LLaDA2.1先亮出了第一個技術殺手锏:

      一個模型兩種模式設計,把怎么用模型的權力交給用戶

      基于可糾錯編輯的底層能力,LLaDA2.1引入了靈活的雙模式解碼策略,實現了單個模型,同時支持極速與質量兩種模式:

      • Speedy Mode(極速模式):大幅降低τ_mask閾值,激進并行生成初稿,依賴T2T編輯進行后期修正。適合代碼草稿、快速推理、多輪試探式生成等對吞吐量敏感的場景。
      • Quality Mode(質量模式):采用保守閾值,減少編輯次數,優先保障輸出準確性。適合正式文檔生成、高精度推理等對結果質量要求嚴苛的場合。

      在此之前,LLaDA-MoE和LLaDA2.0需要二次開發提供額外的加速版本,比如基于路徑蒸餾的加速等;這類加速版本因為非聯合訓練優化,雖然實現了對基礎版本的一定加速,但是精度掉點普遍嚴重;同時一個模型多個版本,也增加用戶選擇的難度以及模型管理的成本。

      單模型雙模式,避免了上述問題。用戶可以根據具體需求,僅需一條config就能實現模式切換。

      這種設計標志著LLaDA系列從研究模型向實用產品的關鍵轉變。

      技術報告顯示,在HumanEval+編程基準上,LLaDA2.1-flash(100B)在Speedy Mode下達到892 TPS的峰值速度,而Quality Mode則在多項推理任務上超越了前代模型。



      可糾錯編輯,讓模型像人類一樣“寫作+修改”

      為了更好的理解雙模式背后的機制,我們可以回憶一下自己寫作的流程。

      自回歸模型像是一個不允許帶草稿紙、不允許帶提綱的作者,它下筆無悔,不允許修改自己寫好的內容。

      但現實中,大部分情況下我們可能是先有了想法去寫草稿,哪怕有錯別字,先動筆寫著;寫完之后,我們再回頭細讀一遍,把不通順的、有錯別字的地方改掉。

      LLaDA2.1工作原理正是如此,引入的機制叫做可糾錯編輯(Error-Correcting Editable,ECE)。

      它的推理過程被分為了兩個階段:

      • 階段一(M2T, Mask-to-Token):模型以極高的速度,并行生成一個草稿。這個階段可能會有一些噪聲和錯誤,但速度極快。
      • 階段二(T2T, Token-to-Token):立即啟動編輯模式。模型站在全局視角,對剛才生成的草稿進行檢查。如果發現某些token置信度低或者邏輯不通,就直接進行回溯式修正。

      技術報告中的一個例子生動說明了其價值。



      當模型嘗試補全赫拉克利特名言“No man ever steps in the same river twice”時,傳統擴散模型在早期步驟錯誤生成了“walks”,由于狀態凍結,最終輸出錯誤的“walks in the same river twice”。

      而LLaDA2.1在后續步驟中檢測到“steps”的置信度更高,果斷將“walks”替換為“steps”,成功恢復正確引文。

      這種允許自我修正的能力,從根本上解決了擴散模型的曝光偏差問題。它讓模型敢于在初稿階段追求速度,再通過編輯階段保障質量。

      它在毫秒級的閃電采樣中完成了“草稿”到“正卷”的華麗轉身,不再被困在序列的起點,而是直接站在全局的高度,去編輯、去重塑、去定義AGI時代的推理新范式。

      這是第一次在擴散架構上實現了速度與質量的解耦。

      首次在100B擴散語言模型上跑通強化學習

      如果說可糾錯編輯解決了怎么生成的問題,那么強化學習則是解決了生成得好不好的問題。

      但此前,在擴散模型上應用RL曾被視為不可能的任務。

      原因在于,自回歸模型的序列似然可直接分解為token級概率乘積,而擴散模型基于塊狀采樣(block-diffusion),序列級似然難以直接計算,導致傳統策略梯度方法失效。

      LLaDA2.1團隊為此定制了EBPO(ELBO-based Block-level Policy Optimization)算法:

      • 以證據下界(ELBO)作為序列似然的代理目標;
      • 通過向量化似然估計技術,并行計算多時間步的塊條件概率;
      • 設計專門的梯度穩定機制,適配擴散模型的編輯特性。

      這是業界首次在100B規模擴散模型上成功實施大規模RL訓練。

      結果顯而易見:LLaDA2.1在IFEval(指令遵循評估)、BFCL(函數調用)等對齊類任務上顯著提升,證明擴散模型不僅能快,更能懂你。



      魚和熊掌,可以兼得

      正如我們剛才提到的,LLaDA2.1百億參數版本在處理HumanEval+等復雜編程任務時,實現了892 tokens/秒的峰值速度。

      在同級別的基準測試中,這一速度表現已經對主流自回歸架構形成了顯著優勢。

      更值得關注的是,這種速度并非以犧牲質量為代價。

      在涵蓋知識、推理、代碼、數學及指令遵循的33個權威基準測試 中,LLaDA2.1在質量模式下全面超越了前代LLaDA2.0。

      即使在追求速度的極速模式下,其性能下降也微乎其微,真正做到了 “魚與熊掌可以兼得”。

      除此之外,團隊還開源了16B的Mini版本,其在部分任務上的峰值速度甚至超過1500 tokens/秒,為更輕量化的部署提供了可能。

      最后,LLaDA2.1背后的哲學也是值得說道說道。

      它證明了一件事:

      在大模型時代,有敢把非共識走到底的耐心,亦可取得勝利。

      技術報告:
      https://huggingface.co/papers/2602.08676

      GitHub地址:
      https://github.com/inclusionAI/LLaDA2.X

      項目權重:
      https://huggingface.co/collections/inclusionAI/llada21
      https://modelscope.cn/collections/inclusionAI/LLaDA21

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      小米前高管王騰將手機從紅米換成iPhone17,此前因泄密被小米辭退,年初剛成立新公司“今日宜休”

      小米前高管王騰將手機從紅米換成iPhone17,此前因泄密被小米辭退,年初剛成立新公司“今日宜休”

      瀟湘晨報
      2026-02-21 19:03:21
      湖南益陽27歲女子扁桃體發炎輸液后休克去世,丈夫稱錯過黃金救援4分鐘,醫院:診療符合規范,支付11萬元賠償,但拒絕家屬探視遺體

      湖南益陽27歲女子扁桃體發炎輸液后休克去世,丈夫稱錯過黃金救援4分鐘,醫院:診療符合規范,支付11萬元賠償,但拒絕家屬探視遺體

      大象新聞
      2026-02-21 13:44:05
      出事了,F35進入德黑蘭,伊朗雷達全程失靈!

      出事了,F35進入德黑蘭,伊朗雷達全程失靈!

      愛吃醋的貓咪
      2026-02-18 21:03:10
      2026江蘇衛視春晚,小品令人驚嘆,還是地方衛視下料狠啊!

      2026江蘇衛視春晚,小品令人驚嘆,還是地方衛視下料狠啊!

      娛娛魚
      2026-02-21 13:28:10
      恭喜!香港知名星二代和網球王子相愛,傳父親做媒人促成戀情

      恭喜!香港知名星二代和網球王子相愛,傳父親做媒人促成戀情

      動物奇奇怪怪
      2026-02-21 15:29:49
      和平已無望?馬斯克預言大戰時間,美政府已簽字:提到臺灣省8次

      和平已無望?馬斯克預言大戰時間,美政府已簽字:提到臺灣省8次

      興史興談
      2026-01-07 06:19:46
      1-1大冷門,西甲第5遭西甲第17逼平,西甲3連勝終結,巴坎布破門

      1-1大冷門,西甲第5遭西甲第17逼平,西甲3連勝終結,巴坎布破門

      側身凌空斬
      2026-02-22 01:20:30
      爆大冷!第90分鐘絕殺,皇馬轟然倒下,姆巴佩不敢相信

      爆大冷!第90分鐘絕殺,皇馬轟然倒下,姆巴佩不敢相信

      足球狗說
      2026-02-22 03:26:49
      利雅得勝利4-0大勝哈森姆,C羅雙響,安熱洛-博爾熱斯一條龍

      利雅得勝利4-0大勝哈森姆,C羅雙響,安熱洛-博爾熱斯一條龍

      懂球帝
      2026-02-22 04:55:19
      今年的消費真相:不是大家不花錢了,而是都換了一種活法

      今年的消費真相:不是大家不花錢了,而是都換了一種活法

      夜深愛雜談
      2026-02-21 23:09:19
      國家動真格了!封殺大批網紅,原因一致,沒有一個值得同情

      國家動真格了!封殺大批網紅,原因一致,沒有一個值得同情

      林輕吟
      2026-01-23 11:26:40
      生姜立大功?美國研究發現:生姜可在48小時內清除50%老化細胞?

      生姜立大功?美國研究發現:生姜可在48小時內清除50%老化細胞?

      39健康網
      2026-02-11 09:11:33
      集體漲價,一晚就漲了600多元!網友感嘆:快成“奢侈品”了

      集體漲價,一晚就漲了600多元!網友感嘆:快成“奢侈品”了

      小柱解說游戲
      2026-02-19 20:31:31
      白宮公布特朗普訪華時間!美國三張“王牌”曝光,中美關系或有變

      白宮公布特朗普訪華時間!美國三張“王牌”曝光,中美關系或有變

      南宗歷史
      2026-02-21 16:16:25
      中國8000元以上手機市場份額排名:蘋果只有一個對手!

      中國8000元以上手機市場份額排名:蘋果只有一個對手!

      CNMO科技
      2026-02-19 09:50:12
      善惡終有報!49歲的李鐵再傳噩耗,終是為自己的貪婪付出代價

      善惡終有報!49歲的李鐵再傳噩耗,終是為自己的貪婪付出代價

      痞子時代
      2026-02-12 15:36:53
      中國科學家發現黃鐵礦能煉出黃金,簡單來說就是:黃金可以長出來

      中國科學家發現黃鐵礦能煉出黃金,簡單來說就是:黃金可以長出來

      暮雨咋歇著
      2026-02-16 13:16:15
      聽說閆學晶炫富導致中央戲劇學院的管理層都被團滅了!

      聽說閆學晶炫富導致中央戲劇學院的管理層都被團滅了!

      達文西看世界
      2026-02-15 20:25:40
      視頻 | 今年春節,上海“25后”正式上崗值班

      視頻 | 今年春節,上海“25后”正式上崗值班

      上觀新聞
      2026-02-21 14:09:10
      美國也沒想到,轉為中國籍僅6年,谷愛凌竟已成美國頭號勁敵

      美國也沒想到,轉為中國籍僅6年,谷愛凌竟已成美國頭號勁敵

      青煙小先生
      2026-01-31 19:10:22
      2026-02-22 05:24:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12186文章數 176389關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      貝加爾湖7名遇難者身份全部確認 1家4口僅1人生還

      頭條要聞

      貝加爾湖7名遇難者身份全部確認 1家4口僅1人生還

      體育要聞

      徐夢桃:這是我第一塊銅牌 給我換個吉祥物

      娛樂要聞

      黃曉明澳門賭博輸十幾億 本人親自回應

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      游戲
      健康
      旅游
      教育
      公開課

      卡婊總算玩明白了,《安魂曲》雙主角盤活生化30周年

      轉頭就暈的耳石癥,能開車上班嗎?

      旅游要聞

      上海的氣韻 | 馬上啟程來上博,博物館里過大年

      教育要聞

      高考地理中的河流凹凸岸

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版