henry 發自 凹非寺
量子位 | 公眾號 QbitAI
最強的大模型,已經把scaling卷到了一個新維度:百萬級上下文
幾天前,Claude Opus 4.6發布,讓人第一次真切感受到了百萬上下文的涌現能力——
單次吃進50萬字中文內容、實現跨文檔法律分析、多輪Agent規劃……
此情此景,用戶火速用腳投票,華爾街更是直接給出K線回應。
![]()
而這股scaling的風,也很快吹到了端側。
剛剛,面壁智能帶著首次大規模訓練的稀疏與線性混合注意力模型,小年交卷——
這套新注意力架構,不僅解決了傳統Transformer的計算冗余,還第一次在性能無損的前提下,讓9B端側模型能夠在5090顯卡上處理百萬長文本
與此同時,基于SALA注意力架構的模型MiniCPM-SALA也將一并開源。
除此之外,面壁還以OpenBMB社區名義,聯合SGLang與NVIDIA發起2026稀疏算子加速大獎賽(SOAR),將這套scaling能力直接交到開發者手中,推動端側Agent部署的性能突破。
Linear-Sparse混合注意力架構
太長不看,咱直接說重點——
面壁這次全新的線性與稀疏注意力混合架構SALA(Sparse Attention-Linear Attention,SALA),究竟是怎么個混合法呢?
簡單來說,這套架構將75%線性注意力(Lightning Attention)25%稀疏注意力(InfLLM v2)結合,并通過混合位置編碼HyPE(Hybrid Position Encoding)實現兩者的高效協同與超強的長度外推。
![]()
線性注意力模塊,Linear-Sparse選用Lightning Attention作為核心算子,負責快速、穩定地建模長文本的全局信息
![]()
Lightning Attention的計算方式與傳統全注意力接近,方便現有全注意力模型直接遷移到混合架構,無需從零開始預訓練。
同時,借助QK-normalization輸出門控機制,使線性層在百萬級上下文訓練下保持數值穩定,避免梯度爆炸或下溢。
稀疏注意力模塊,Linear-Sparse采用InfLLMv2來精準捕捉長序列中的關鍵局部信息
![]()
InfLLM v2可按需選擇關鍵KV,讓每個Query只計算必要部分,從而大幅提高長文本處理效率。
值得一提的是,InfLLM v2還能在長文本中自動啟用稀疏模式,在標準長度下回退為稠密計算,實現長短文本的無縫切換。
最后,混合位置編碼HyPE(Hybrid Position Encoding)的引入,則保證了線性和稀疏兩種注意力機制的充分協同。
一方面,線性層保留RoPE以維持與原全注意力模型在參數分布和特征空間上的一致性,保證中短文本性能穩健。
另一方面,稀疏層采用NoPE(無位置編碼),讓KV-Cache與位置信息解耦,規避長距離衰減問題,使模型在百萬長度上下文中仍能高效檢索極遠信息。
訓練上,MiniCPM-SALA采用Transformer-to-Hybrid低成本構建方法(HALO)
![]()
具體而言,模型通過HALO方法將75%的全注意力層轉換為線性注意力層,整個過程包括參數轉換、隱狀態對齊、層選擇以及知識蒸餾四個步驟。
最終,這套Linear-Sparse設計讓MiniCPM-SALA在端側處理超長文本時,不僅顯存占用極低、計算高效,而且語義精度依然保持領先水平。
為什么百萬上下文,必須是“混合注意力”?
要回答這個問題,得先回到傳統的Full Attention
![]()
在經典Transformer里,每生成一個新token,都要和之前所有token做兩兩計算,其計算復雜度是典型的O(N2)。
這意味著,把上下文從1萬拉到100萬,計算量不是漲100倍,而是直接飆升1萬倍。與此同時,為了讓模型“記住”所有歷史信息,還得把KV對全攢在顯存里。
隨著上下文長度增加,KV Cache迅速膨脹,很快就會爆顯存。
由此可見,想解決長上下文問題,注意力機制是核心瓶頸
過去幾年,業界圍繞這一瓶頸探索了多條路線,本質上都是在精度、效率與可部署性之間尋找平衡點
第一類是線性注意力,通常為線性和全注意力結合的混合設計。
它用記憶狀態替代傳統兩兩打分,能將計算復雜度從O(N2)降到O(N)。
優點是可以吃下百萬級上下文,但底層采用有損壓縮,序列越長,早期信息越容易被稀釋,導致上下文遺忘和模型能力下降。
第二類是原生稀疏注意力
只計算關鍵位置,精度接近全注意力,但為了支持長程歷史回顧,仍需全量保存KV Cache,導致端側部署成本高。
第三類是放棄顯式注意力的狀態空間模型,如Mamba。
這類方法推理效率高、幾乎不需要KV Cache,但在精確指令遵循和長距離精確檢索上,仍不夠穩定。
綜上,我們不難看出注意力機制改動是長上下文scaling的主戰場
但真正能同時兼顧百萬級上下文能力、推理效率和端側可落地性的方案,仍然稀缺。
這也是為什么面壁提出Linear-Sparse混合注意力架構的出發點。
用線性機制承擔大規模上下文的承載,用稀疏機制補足關鍵位置的精確建模能力。
在這一架構下,模型不再需要對所有token做完整的兩兩計算,也不必無條件保存全量KV Cache。
新的混合注意力架構可以在顯著降低推理開銷和顯存占用的同時,避免純線性注意力在長程信息召回上的精度損失,以及稀疏注意力在端側設備要求上的局限。
基于這一設計,面壁還開源了MiniCPM-SALA,用來驗證該架構在真實長上下文場景下的潛力。
在效果層面,得益于顯著更低的顯存占用和更高的推理效率,MiniCPM-SALA首次在5090這樣的消費級顯卡上,將1M上下文完整跑通,為長上下文從云端走向端側提供了一條現實可行的路徑。
與此同時,在不依賴投機推理等額外加速算法的前提下,相比同尺寸開源模型,MiniCPM-SALA在256K序列上實現了2倍以上的速度提升。
當序列長度進一步提升至512K甚至1M時,部分同尺寸模型已經遭遇顯存瓶頸,而MiniCPM-SALA依然能夠穩定運行。
(詳細測評結果可參考MiniCPM-SALA的GitHub或Hugging Face README)
從這些結果來看,未來的大模型,并不一定需要Full Attention才能具備完整能力。
當上下文成為第一性資源時,像Linear-Sparse混合注意力這樣的新型注意力設計,正在成為影響模型能否真正落地的重要變量。
2026稀疏算子加速大獎賽
如果說MiniCPM-SALA讓Linear-Sparse混合架構的能力有了實證,那么今年的SOAR(稀疏算子加速大獎賽)就是讓這套技術“落地跑起來”的舞臺。
這場比賽由面壁智能、OpenBMB聯合SGLang社區和NVIDIA共同發起。
旨在通過全球極客的深度協作,共同探索MiniCPM-SALA這一全球首創“稀疏+線性”混合架構模型在1M長文本推理上的性能極限。
具體來說,大賽聚焦于稀疏算子融合與編譯優化等底層技術挑戰,嘗試在消費級GPU上實現百萬Token推理且KV Cache<6GB的極致效率。
比賽時間從2月11日持續到5月29日,設有總獎池超過70萬人民幣的獎勵。
參賽者不僅能測試混合架構在真實硬件上的極限,還能探索端側高效長文本處理的新方法。
比賽鏈接:https://soar.openbmb.cn/
![]()
面壁為什么執著于用SALA重構長上下文?
這并不是為了“卷長上下文指標”。
面壁的一大目標是從Densing Law(密度法則)的第一性原理出發,將通用能力強的模型落到智能終端如手機、汽車、機器人等上,而SALA架構的創新是通往羅馬的關鍵:
正是基于對注意力機制的創新,MiniCPM-SALA模型才能足夠高效、顯存占用足夠低,面壁才能首次在5090這樣的消費級GPU 上,把一兆級長文本端側推理真正跑通。
這一步一旦成立,長上下文就不再只是云端模型的特權,而成為端側智能可以依賴的基礎能力。
如果把面壁今年的動作放在一起看,其實不難理解其在端側智能上的整體思路:
從模型底層直通端側生態,核心就是上下文
無論是模型架構的迭代,還是長文本的競技,本質上都是一次針對端側落地的“兩步走”戰略。
而這,并非偶然。
放眼整個行業,Agent的核心瓶頸已從單純的參數量轉向上下文能力——
從模型層的Claude Opus 4.6,到應用層的Claude Cowork、Clawdbot(現OpenClaw),再到評估層的CL-Bench,行業共識已經非常明確:
能否一次吸收、理解并持續利用大量上下文,是決定Agent可用性的關鍵。
與此同時,基于注意力機制優化上下文處理,也已成為學界到產業公認的主戰場。
去年NeurIPS 2025最佳論文給到門控注意力;產業側,Kimi的KDA、DeepSeek的NSA、MiniMax的Lightning相繼推出新方案——
幾乎所有核心玩家,都在attention這條線上持續加碼。
因為這不是一個“工程調優”問題,而是架構級問題。
只有真正具備AGI野心和技術縱深的公司,才有能力從底層架構一路改到上層算法。
也只有真正想把模型能力推到邊界的團隊,才有魄力去挑戰已經被奉為主流、但顯然仍有優化空間的Transformer傳統范式。
而面壁選擇這條路,更是因為其與端側部署的目標高度契合:
首先,端側Agent要處理的包括通訊錄、位置信息、聊天記錄。
出于隱私保護,這些數據無法走向云端。只有讓模型本身具備超長上下文能力,個人助理才能在本地真正“懂你”。
其次,通用榜單已進入紅海,端側開發者關心的問題也已從特定的benchmark,轉向真實世界環境的上下文應用。
這正如DeepSeek研究員茍志斌所言:
- 預訓練能scaling,RL也能scaling,上下文也能scaling,模型仍在繼續scaling。
![]()
換句話說,參數規模已經不再是唯一指標,真正的競爭力在于模型/Agent在復雜上下文中持續推理和行動的能力,這將直接決定模型從demo走向倉庫級代碼助手、行業知識庫Agent。
最后也是最本質的,不解決長文本推理部署成本,端側智能也就無法真正落地。
所以面壁不只做模型,更在做生態:從開源MiniCPM-SALA,到舉辦端側長文本比賽降低部署成本,再到深耕開發者社區,面壁正在拼出一條劍指“百萬上下文時代個人智能體”的主線。
比賽鏈接:
https://soar.openbmb.cn/
技術報告:
https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM SALA.pdf
Github:
https://github.com/openbmb/minicpm
HuggingFace:
https://huggingface.co/openbmb/MiniCPM-SALA
ModelScope:
https://www.modelscope.cn/models/OpenBMB/MiniCPM-SALA
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.