![]()
在大語言模型(LLM)落地應用中,推理速度始終是制約效率的核心瓶頸。傳統自回歸(AR)解碼雖能保證生成質量,卻需逐 token 串行計算,速度極為緩慢;擴散型 LLM(dLLMs)雖支持并行解碼,卻面臨訓練成本高昂、質量下降及 KV 緩存兼容問題;投機解碼(Speculative Decoding)則需額外引入草稿模型,系統復雜度大增。


Jacobi Forcing Model 與 AR LLM 推理速度對比示意
近期,來自 UCSD Hao AI Lab 和上海交大 Deng Lab 的團隊提出了一種突破性解決方案 ——Jacobi Forcing,該方案無需重構模型架構,即可將標準 AR 模型轉化為原生因果并行解碼器,在編碼、數學等任務中實現最高 4 倍 wall-clock 提速和 4.5 倍 tokens-per-forward 提升,同時保持接近 AR 模型的生成質量,為 LLM 高效推理開辟了新路徑。
![]()
- 論文地址: https://arxiv.org/pdf/2512.14681
- 代碼地址:https://github.com/hao-ai-lab/JacobiForcing
- 模型倉庫:http://huggingface.co/JacobiForcing
Jacobi Forcing 核心優勢:
破解并行解碼的 "三元悖論"
Jacobi Forcing 的創新之處在于打破了 "低代價、高速度、高質量" 的不可能三角,其核心優勢體現在三大維度:
1. 原生因果架構,部署與訓練成本低:
不同于 dLLMs 的雙向注意力機制,Jacobi Forcing 保留了 AR 模型的因果注意力結構,完美適配現有 KV 緩存復用機制和 AR 優化內核,可作為現有 AR 模型的 "即插即用" 替代方案,極大降低部署與訓練成本。
2. 高效并行解碼,速度提升顯著:
通過在模型自己生成的 Jacobi 解碼軌跡做漸進蒸餾訓練,模型能夠快速在每輪前向傳播中并行更新多個 token。結合多塊并行解碼(Multiblock decoding)和拒絕回收(Rejection recycling)策略,可同時維護多個解碼塊,緩存高質量 n-gram 片段重復利用,在編碼任務中實現 181.8 TPS 的生成速度,遠超 AR 基線的 39.8 TPS。
3. 質量損失極小,任務表現優異:
針對 AR 到擴散模型的預訓練 - 后訓練目標不匹配問題,Jacobi Forcing 設計了使用模型自己生成的數據做學習,通過漸進式一致性蒸餾損失和 AR 損失的聯合優化,讓模型在噪聲環境下仍能生成貼近 AR 分布的高質量結果,學習高效且保持了 AR 模型的高質量特性。在 HumanEval 編碼基準中,以 83.5% 的準確率實現 4 倍提速;在 GSM8K 數學任務中,91.4% 的解題率接近 AR 基線,速度提升 3.7 倍。
![]()
Jacobi Forcing 與 dllm 在速度,質量與訓練成本上的對比圖
Jacobi Forcing 技術路線:
從訓練到推理的全鏈路優化
Jacobi Forcing 以因果并行解碼為核心目標,基于 Jacobi 解碼框架進行深度優化,通過訓練機制創新與推理策略升級的全鏈路設計,在保留 AR 模型因果骨干與 KV 緩存兼容性的同時,實現高效并行解碼。
其技術路線具體細節如下:
1. 技術基礎:基于 Jacobi 解碼的因果并行框架
Jacobi 解碼是一種因果并行解碼過程,核心邏輯是:在保留 AR 模型因果注意力機制的前提下,對一個塊內的所有 token 進行并行迭代更新,直到所有 token 與貪心 AR 輸出完全匹配(即達到 “定點” 狀態)。這一過程形成了一條 “并行精煉軌跡”,既維持了因果依賴關系,又突破了逐 token 串行的限制。 此前的相關工作(如 CLLMs)已驗證:通過在 Jacobi 軌跡上微調模型,可縮短迭代軌跡、提升解碼速度,但存在一個關鍵局限:在大 block size 下由于上文噪聲過多無法并行解碼出更多的 token 數。Jacobi Forcing 在此基礎上進一步推進,核心突破是:訓練模型在含噪聲的上文下,仍能生成貼近 AR 分布的高質量草稿,同時通過推理策略優化,最大化并行效率。
2. 訓練階段優化:噪聲感知的漸進式學習
Jacobi Forcing 首先利用自回歸語言模型對提示詞(prompt)集合執行 Jacobi 解碼,采集從噪聲塊到干凈定點的完整 Jacobi 解碼軌跡。為使模型具備應對高噪聲上文場景下的并行解碼能力,Jacobi Forcing 設計漸進式噪聲調度策略,以學習噪聲塊到干凈定點的映射關系:具體而言,先為采集軌跡中的中間未收斂噪聲塊賦予噪聲等級(噪聲等級越高,與干凈定點狀態的偏差越大),再按 “低噪聲→高噪聲” 的漸進式順序對噪聲塊進行打包,構建訓練序列,從而提升去噪任務的可學習性;其核心訓練目標為將打包后的含噪聲訓練序列映射至全干凈定點序列。為實現高效訓練,Jacobi Forcing 進一步設計噪聲感知注意力掩碼,該掩碼支持通過單次模型前向傳播即可完成上述映射關系的學習。此外,為平衡并行解碼效率與自回歸(AR)生成質量,方案設計了加權雙項聯合損失函數:其一為漸進式一致性蒸餾損失,用于引導模型掌握任意噪聲等級塊到干凈定點塊的映射;其二為 AR 損失,確保模型生成質量與原始自回歸模型保持一致。

訓練數據打包與噪聲感知注意力掩碼圖解
3. 推理階段優化:高效并行解碼策略
訓練后的 Jacobi Forcing 模型仍是標準 AR checkpoint,但通過針對性的推理策略,可最大化并行解碼效率,核心包括 “高質量草稿利用 + 多塊調度” 兩大模塊。
1.高質量草稿挖掘與復用:訓練后模型的 Jacobi 解碼軌跡呈現顯著特性:軌跡中未收斂點包含大量高質量 n-gram,這些 n-gram 雖可能位置暫錯,但內容與最終 AR 定點輸出完全一致,且在迭代中保持穩定。基于此特性,推理時會緩存 n-gram 并在后續迭代中直接將這些緩存的 n-gram 作為候選草稿,減少迭代次數(見下圖軌跡可視化:紅色標注為可復用的高質量 n-gram)。
![]()
高質量草稿復用圖解
2.多塊并行調度: 同時維護 K 個塊(實驗中 K=2 為最優),分為 “真實活躍塊” 和 “偽活躍塊”; 真實活躍塊中的 token 會被驗證并提交到 KV 緩存,成為后續塊的因果前綴;偽活躍塊會基于當前前綴進行 Jacobi 迭代更新,但暫不提交到 KV 緩存; 當真實活躍塊收斂(所有 token 匹配定點),從偽活躍塊中選擇一個晉升為真實活躍塊,基于更新后的完整前綴重新驗證其所有 token。

推理階段優化策略圖解
實測表現:優于主流并行解碼方案
在 A100 GPU 上的 7B 模型基準測試中,Jacobi Forcing 超越 dLLMs、投機解碼等主流方案,展現出更優的速度 - 質量 trade-off。
![]()
Jacobi Forcing 模型性能展示
無論是編碼、數學等專業任務,還是通用文本生成場景,Jacobi Forcing 都能在保證結果可靠性的前提下,將推理速度提升一個量級,尤其適合對延遲敏感的工業級 LLM 應用。
Jacobi Forcing 的出現,不僅解決了 LLM 推理的效率瓶頸,更重新定義了因果模型的并行化可能。隨著大模型應用向低延遲、高并發場景滲透,這種兼顧兼容性、高性能和高質量的解碼方案,有望成為工業級 LLM 部署的首選技術,推動 AI 應用效率邁入新階段。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.