眾所周知,Transformer 及其核心的全注意力機制(Full Attention)雖長期占據大模型架構的核心地位,但平方級計算復雜度、高額顯存占用的瓶頸,早已成為實現超長上下文處理與模型規模化應用的 “攔路虎”。敢于挑戰這一固有權威,需要的不僅是實現 AGI 長遠目標勇于創新的魄力,更需要有獨到的技術視野以及突破技術壁壘的硬實力。從 DeepSeek 的稀疏注意力(DSA)、MiniMax 的線性注意力、到月之暗面的線性注意力(KDA),大家紛紛投入注意力架構的革新競技場。
今天,面壁智能也在這場變革中邁出了關鍵一步:正式發布行業首個大規模訓練的稀疏-線性注意力混合架構 SALA(Sparse Attention-Linear Attention,簡稱SALA),以及基于該架構的文本模型 MiniCPM-SALA,以追求更長文本處理能力與極致的推理性價比。MiniCPM-SALA 不僅在多項長文本理解與生成評測中優勢明顯,且在知識問答、數學推理、代碼生成等核心能力維度上,保持了與同規模全注意力模型相當的卓越水平,實現了“長短兼備”的綜合性能表現,以及極致推理性價比。
▍MiniCPM-SALA 亮點一覽
?架構革新:“稀疏-線性”注意力混合架構,在顯著降低推理開銷與顯存占用的同時,克服了純線性架構在長程信息召回上的精度瓶頸,效率性能兼顧。
?卓越性能:采用HyPE(混合位置編碼)來有效協調短上下文和長上下文的性能。在保持通用能力(如知識、數學和編碼)與其他8B全注意力模型相當的同時,MiniCPM-SALA 在多個長上下文基準測試中表現出明顯優勢。
?高效推理:不使用投機采樣等加速算法,在云端推理芯片上,當序列長度為256K詞元時推理速度高達 Qwen3-8B 的 3.5 倍,并支持在云端芯片和消費級端側 GPU 上進行高達一百萬詞元上下文長度的推理。
▍相關鏈接
GitHub 鏈接:
?https://github.com/openbmb/minicpm
HuggingFace鏈接:
?https://huggingface.co/openbmb/MiniCPM-SALA
Model Scope鏈接:
?https://www.modelscope.cn/models/OpenBMB/MiniCPM-SALA
GitCode鏈接:
?https://ai.gitcode.com/OpenBMB/MiniCPM-SALA
MiniCPM-SALA 技術報告:
?https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf
01
為何混合架構是更優解
傳統 Transformer 模型在處理長文本時,其核心的全注意力機制會導致計算量隨文本長度呈平方級增長,同時生成過程中需要緩存的鍵值對也會占用大量顯存。現有的解決方案主要分為線性注意力與稀疏注意力兩大流派,但純線性注意力存在精度損失的短板,純稀疏注意力又有著存儲瓶頸的限制。
![]()
MiniCPM-SALA 首創稀疏-線性混合注意力架構,巧妙地解決了這一核心矛盾。模型中 75% 的層采用線性注意力(Lightning Attention),負責信息的高效全局流轉。其余 25% 的層采用稀疏注意力(InfLLM-v2),專注于精準捕捉局部關鍵信息,黃金配比實現計算效率與語義精度的平衡。
![]()
MiniCPM-SALA 模型架構
相關研究論文現已公開:
?稀疏-線性混合注意力:
https://arxiv.org/pdf/2601.22156
?InfLLM v2:
https://arxiv.org/pdf/2509.24663
02
不止于「長」,更在于「強」
MiniCPM-SALA 具備優異的長度泛化能力。在不使用任何額外技術(如YaRN)的前提下,MiniCPM-SALA 可以將上下文長度拓展至2048K。![]()
![]()
在云端推理芯片上評估從 64K 到 1024K 詞元的不同序列長度下的效率,MiniCPM-SALA 在所有測試配置中均表現出顯著的效率優勢,在非量化設置下始終保持更低的延遲。在 256K 序列長度下,MiniCPM-SALA 相比 Qwen3-8B 實現了約 3.5 倍的加速。
![]()
![]()
在更長序列(512K 及 1M 長文本)上,同尺寸開源模型已經遭遇顯存爆炸的情況下,MiniCPM-SALA 依舊能夠穩定推理,讓 MiniCPM-SALA 在汽車、手機、具身機器人等更多端側領域應用成為可能。
此外,在模型僅有9B 參數的前提下,MiniCPM-SALA 在知識問答、數學推理、代碼生成等核心能力維度上保持了與同規模全注意力模型相當的卓越水平,實現了“長短兼備”的綜合性能表現。
![]()
03
邀你挑戰推理極限
為進一步探索 SALA 混合注意力架構在實際部署中的性能極限,OpenBMB聯合 SGLang 、 NVIDIA 、面壁智能共同發起 2026 稀疏算子加速大獎賽(SOAR)。大賽聚焦于稀疏化算子融合與編譯優化等底層硬核課題,挑戰在消費級 GPU 上實現百萬級詞元推理與 KV Cache 的極致效率,協同攻克長文本處理的性能最優解。誠邀全球技術極客基于 SGLang 推理框架與 NVIDIA 硬件特性展開極限攻關,打破硬件物理瓶頸,共同定義下一代高效推理的性能新基線。
比賽官網:https://soar.openbmb.cn/
![]()
04
技術報告
01 引言 (Introduction)
隨著大模型能力日益強大,其應用場景正經歷著深刻的范式轉變,從簡單的問答發展到愈發復雜的任務。在這些高級應用場景中,模型不能再局限于處理碎片化信息。相反,模型必須具備處理超長上下文的能力,例如一次性閱讀整本技術手冊、分析跨越數萬行代碼的依賴關系,或在多日的人機協作中維持連貫的任務狀態和記憶。
在這種背景下,百萬級詞元的處理將會成為前沿大模型的關鍵能力。然而,作為當前主流大模型基礎的Transformer架構在處理超長序列時面臨著嚴重的計算瓶頸。這一瓶頸主要體現在兩個維度:
?計算復雜度的“計算墻”(Compute Bottleneck):在標準注意力機制中,計算復雜度隨序列長度 N 呈二次方增長。當上下文擴展到百萬詞元時,預填充(Pre-filling)階段的巨大開銷會導致首個詞元生成時間(TTFT)急劇增加;
?KV-Cache 的“顯存墻”(Memory Bottleneck):在自回歸生成過程中,模型必須存儲所有歷史詞元的 Key 和 Value 狀態以避免重復計算。對于典型的 8B 參數模型,即使利用分組查詢注意力(GQA),百萬級詞元所需的 KV-Cache 也可能達到數十甚至上百 GB。
為了解決上述挑戰,現有的解決方案存在兩種主要范式:稀疏注意力(Sparse Attention)和線性注意力(Linear Attention)。這兩種方法各具獨特的優勢和固有的局限性。稀疏注意力方法試圖通過僅計算注意力矩陣中最顯著的部分(例如通過滑動窗口或全局錨點)來打破計算墻。然而,這些方法具有“稀疏計算,稠密存儲”的特點。雖然局部計算減少了即時處理開銷,但模型仍需保留完整的 KV-Cache 以支持上下文信息的檢索。線性注意力利用循環計算成功地將計算復雜度降低到 O(N) 。然而,這種極致的效率從根本上是通過對上下文信息的有損壓縮實現的,容易導致性能受損。
MiniCPM-SALA 采用了一種稀疏與線性注意力的混合架構,專為實現高效的超長序列建模而設計。該架構結合了 InfLLM-V2 的高保真局部建模能力與 Lightning Attention 的全局計算效率。通過這種集成方法,模型顯著降低了推理開銷和內存消耗,同時解決了純線性架構在長距離信息處理中典型的精度瓶頸。
主要貢獻如下:
?創新架構設計:提出了一種稀疏-線性混合注意力機制 SALA,將 25% 的 InfLLM-V2 和 75% 的 Lightning Attention 相結合,可在性能與效率之間取得良好的平衡。通過利用稀疏注意力對局部細節的細粒度關注,以及線性注意力在長上下文時 O(N) 的計算效率,該架構在序列長度增加時仍能保持較高的性能。
?高效訓練范式:MiniCPM-SALA 證明了 Transformer 到混合架構的轉換范式是構建混合模型的高效策略。這種方法通過對預訓練權重進行架構轉換,規避了冷啟動訓練的低效性,總訓練量僅是從頭開始訓練同水平模型的 25%。
?強大的綜合性能:采用 HyPE(混合位置編碼)來有效協調短上下文和長上下文的性能。在保持通用能力(如知識、數學和編碼)與 Qwen3-8B 等現代全注意力模型相當的同時,MiniCPM-SALA 在多個長上下文基準測試中表現出明顯優勢。
?優越的推理效率:MiniCPM-SALA 在長上下文場景中展示了顯著的資源和速度優勢。在 NVIDIA A6000D GPU 上,當序列長度為 256K 詞元時,MiniCPM-SALA 的推理速度高達Qwen3-8B 的 3.5 倍。此外,MiniCPM-SALA 支持在 NVIDIA A6000D 和 5090 GPU 上進行高達 1 百萬詞元上下文長度的推理,而 Qwen3-8B 在此長度下會面臨顯存不足(OOM)的問題。這些結果展示了 MiniCPM-SALA 在端側長文本應用中的強大潛力。
02模型架構
(1)總體架構設計
MiniCPM-SALA 建立在交替式混合注意力架構之上。如圖1所示,有別于傳統 Transformer 采用同構全注意力層堆疊的模式,該架構通過層級異構設計打破了單一機制在百萬級長序列建模中的性能瓶頸。模型采用了 25% 的稀疏注意力與 75% 的線性注意力進行混合配比。為了顯著降低算力開銷,MiniCPM-SALA 利用 HALO 算法將預訓練的全注意力 Transformer 轉換為混合架構模型進行持續訓練,而非從頭構建。
![]()
Figure1:MiniCPM-SALA 模型架構
(2)稀疏注意力模塊
MiniCPM-SALA 采用了 InfLLM-V2 作為 25% 稀疏注意力模塊。InfLLM-V2 是一種可切換的稀疏注意力框架,其核心特點在于通過精細的塊選擇機制,讓每個 Query 僅處理一小部分關鍵的 Key 和 Value,從而大幅提升長文本處理效率。得益于 InfLLM-V2 可切換的特性,我們在模型的長文本訓練過程中打開稀疏模式,而在標準長度的訓練中(例如 4096 詞元)關閉稀疏模式。我們在小規模實驗上驗證輸出門控機制對于提升模型的通用能力有幫助,因此我們也對稀疏注意力層加入了輸出門控機制。
(3)線性注意力模塊
在線性注意力組件選擇上,盡管當前涌現出 RWKV-7、GDN 和 KDA 等多種先進的線性 Token Mixing 模塊,但由于 Lightning Attention 在計算范式上與全注意力機制更為接近,能夠與 HALO 轉換算法實現更優的適配度,因此我們最終選定其作為線性層的核心算子。同時,我們使用了與 HypeNet 相同的架構細節,包括 QK-normalization、GQA-to-MHA transformation 和輸出門控機制,這些設置可以有效提升模型訓練的穩定性,并且可以取得更好的模型性能。
(4)混合位置編碼
我們沿用了 HypeNet 提出的 HyPE (Hybrid Position Encoding)策略。該策略針對混合架構中不同注意力機制的特性進行了差異化設計:在線性注意力層,我們保留了 RoPE (Rotary Positional Embedding),旨在最大程度保持與轉換前全注意力模型在參數分布與特征空間上的一致性,從而降低轉換帶來的性能損失。
而在稀疏注意力層,我們則采用了 NoPE (No Position Encoding)策略。這一設計的核心優勢在于,稀疏層的歷史 KV-Cache 不再耦合任何位置信息。這有效規避了 RoPE 在處理超長序列時固有的長距離衰減問題,使得模型在檢索極遠距離的歷史信息時,不再受制于位置編碼帶來的數值抑制,從而顯著增強了模型的長距離召回能力。
03模型訓練
模型整體訓練過程如下表所示:
![]()
?架構轉換 (HALO):這一階段旨在將 Transformer 模型從全注意力轉換為混合架構。此階段主要沿用了 HALO 轉換方法。具體地,MiniCPM-SALA 的訓練配置在兩個方面不同于標準的 HALO 方法。首先,關于層選擇,MiniCPM-SALA 保留第一層和最后一層不進行轉換,以提高訓練過程的穩定性。對于其余層,使用 HALO 的層選擇算法來確定哪些層被保留為全注意力層。這些保留的全注意力層隨后在后續階段被訓練為稀疏注意力。與標準 HALO 的第二個區別是,我們不執行 HALO 流程中的最終微調步驟。取而代之的是,我們進行更廣泛的持續預訓練和后訓練,如后續步驟所述。此階段的訓練過程非常高效,僅使用了 1.3B 詞元,序列長度為 512 詞元。此外,在此階段僅轉換后的線性注意力層是可訓練的,所有其他參數保持凍結。
?持續 Stable 訓練:利用上一階段結束的模型作為本階段訓練的起點,在 MiniCPM-4.0 的預訓練數據集上進行進一步訓練。此階段的主要目標是促進轉換后的線性注意力層與模型的其他組件(包括全注意力層、FFN 層和嵌入層)更好地適配。此過程的序列長度設置為 4K 詞元,總訓練量為 314.6B 詞元。由于序列長度仍然相對較短,為了保持計算效率,在此階段關閉了稀疏注意力層。本階段學習率設置為 7.5e-3。
?Short-Decay 訓練:第三階段的學習率從 7.5e-3 以指數衰減的形式降低至 3.75e-4。此過程使用 4K 詞元的序列長度,共訓練 1T 詞元,也是 MiniCPM-SALA 整個開發流程中訓練量最大的環節。在數據方面,在 MiniCPM-4.0 Decay 訓練數據的基礎上,顯著增加了 L2 高質量篩選數據的權重(數據分級標準參考 Data Science and Technology Towards AGI Part I: Tiered Data Management),并引入了大量的 PDF 語料庫和 L3 合成數據。這種方法旨在通過高信息密度的數據組合來增強通用能力和邏輯推理能力,從而實現對海量知識的高效壓縮和內化。
?Long-Decay 訓練:本階段將上下文窗口從 4K 逐步擴展到 32K、160K,最后擴展到 520K 詞元,每個階段分別使用 102.2B、 62.9B 和 50.6B 詞元的數據量。學習率在 32K 時從 3e-4 衰減至 2e-4,然后在 160K 時衰減至 1e-4,最后在 520K 時衰減至 3.75e-5。在此階段,我們對長上下文數據的比例進行上采樣,以使模型更好地與長序列分布對齊。鑒于稀疏注意力在較長序列中計算優勢較為明顯,我們在此階段啟用稀疏注意力機制并保持全參數訓練,從而允許模型有效地學習稀疏注意力和線性注意力之間的協同作用。
?SFT:此階段的 SFT 語料庫由高質量的推理密集型數據組成,包括代碼、數學、知識、函數調用和一般對話。這種選擇旨在充分激發復雜邏輯下的推理和任務執行能力。此外,我們專門合成了長上下文數據,以提高信息檢索和跨文檔理解的能力。在 SFT 階段,我們依次在 64K 和 140K 的上下文長度下進行訓練,分別使用了 204.5B 和 213.3B 詞元的數據量。稀疏注意力在整個過程中保持啟用狀態。
04模型能力測試
短榜能力測試:
![]()
長榜能力測試:
![]()
超長序列能力測試:
![]()
上述結果表明,MiniCPM-SALA 在不損害短榜能力的前提下,有效提升了長文本能力。MiniCPM-SALA 還有一個顯著的亮點是,具備優異的長度泛化能力。在不使用任何額外技術(如YaRN)的前提下,MiniCPM-SALA 可以有效外推至 2048K長度。
05計算效率測試
我們評估了 MiniCPM-SALA 和 Qwen3-8B 在不同硬件和序列長度下的推理速度。我們不僅在云端推理芯片(如 NVIDIA A6000D)上進行了實驗,還在消費級端側 GPU(如 NVIDIA 5090)上進行了測試。對于每種序列長度,我們測量了首字延遲(Time To First Token, TTFT)和端到端延遲。前者作為預填充速度的指標,而后者反映了預填充和解碼階段的綜合性能。為了使評估與實際部署場景保持一致,我們評估了非量化模型以及經 GPTQ INT4 量化壓縮后的模型的推理延遲。
圖 2 展示了在 NVIDIA A6000D GPU(96GB 顯存)上 Qwen3-8B 與 MiniCPM-SALA 推理延遲的全面對比。我們評估了從 64K 到 1024K 詞元的不同序列長度下的效率。如圖所示,MiniCPM-SALA 在所有測試配置中均表現出顯著的效率優勢。在非量化設置下,MiniCPM-SALA 始終保持更低的延遲。值得注意的是,在 256K 序列長度下,MiniCPM-SALA 將 TTFT 從 180.8 秒(Qwen3)降低至僅 51.6 秒,實現了約 3.5 倍的加速。
結果也顯示了 MiniCPM-SALA 在顯存利用率方面的優勢。當 Qwen3-8B 在 512K 和 1024K 序列長度下遭遇顯存溢出(OOM)時,MiniCPM-SALA 成功處理了這些超長上下文。
圖 3 展示了 MiniCPM-SALA 在顯存有限的硬件上的優勢。在 RTX 5090(32GB 顯存)上,基線模型 Qwen3-8B 比在 A6000D 上明顯更早觸及“內存墻”,在非量化設置下僅 128K 詞元、量化設置下 256K 詞元時即觸發 OOM 錯誤。相比之下,MiniCPM-SALA 成功擴展至 1024K詞元的上下文長度且未出現顯存溢出的問題。這表明 MiniCPM-SALA 使得在消費級端側 GPU 上處理 1 百萬詞元成為可能。
![]()
![]()
06 結論整體而言,我們通過融合稀疏注意力與線性注意力,構建了一種面向長上下文高效建模的混合架構,從而在模型能力與長上下文處理效率之間實現了出色的平衡。在過去一段時間里,稀疏注意力與線性注意力的相關研究已分別展現出解決大模型長上下文問題的顯著潛力;而在2026年,稀疏?線性混合架構無疑將成為該領域最具實效的技術方向之一。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.