網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

大模型又出新架構(gòu)，面壁這次把Transformer上下文能力拉滿了

2026-02-14 09:39:30　來源: 卡爾的AI沃茨

北京舉報

分享至

我有點好奇一個問題，

讓現(xiàn)階段一個百萬上下文的大模型讀一本百萬字的小說，需要推理嗎？

可能大部分時候不需要，它需要的只是記住，記住第一章的主角在最后一章說了什么。

現(xiàn)在傳統(tǒng)的Transformer架構(gòu)只有一種處理方式，全靠硬算。它像一個過于認真的前排學霸，為了記住最后一章的內(nèi)容，把前面九十九萬字的內(nèi)容跟每一個新生成的字都做一次對比計算。

這樣會占大量的顯存，計算量也會平方級增長。

這一周新的大模型也是不停刷新，MiniMax M2.5，GLM5，Gemini 3.1 Pro Preview，DeepSeek新版本（疑似V4），我都希望他們可以接入我的OpenClaw里面，做一個長對話長記憶的模型。

昨天，面壁還發(fā)了一篇新論文，提出了一個叫SALA（Sparse Attention-Linear Attention）的混合注意力架構(gòu)。它給出了一個新觀點，

該快的地方就得快，該準的地方必須準。

https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

在他們的SALA架構(gòu)里，

一部分模塊專門負責快，

另一部分模塊專門負責準。

結(jié)果就是，基于SALA架構(gòu)的模型，在端側(cè)顯卡上，第一次把百萬的長文本推理，穩(wěn)穩(wěn)跑通了。

我們來看一個具體的例子，

模型在處理百萬字小說時，內(nèi)部發(fā)生了什么。

每生成一個新詞，模型都要把它和前面所有詞語的鍵值對，也就是KV Cache，全部計算一遍。計算復雜度是隨著文本長度平方級增長的，

同時，這個KV Cache會像滾雪球一樣，迅速吃掉你所有的顯存。把上下文從一萬字拉到一百萬字，計算量不是漲一百倍，是飆升一萬倍。

這就是為什么傳統(tǒng)架構(gòu)在長上下文任務(wù)面前，會同時撞上計算墻和顯存墻。

這幾十萬字的上下文，大部分可能只是背景描述，真正關(guān)鍵的信息也許就那么幾句。

但模型為了找到這幾句關(guān)鍵信息，付出的代價是把所有內(nèi)容都用最高精度過了一遍。

來看看SALA的幾個關(guān)鍵的設(shè)計，

首先是兩種模塊的分工。

線性注意力，我們這里可以理解為負責準的模塊，面壁選用的是Lightning Attention，挑出那些最關(guān)鍵的局部信息進行精細計算。稀疏注意力，則是負責快的模塊，面壁選用的是InfLLM v2，會高效計算所有信息。

SALA就是把這兩者結(jié)合了起來。整個模型里，75%的層是負責準的線性注意力，剩下的25%，是負責快的稀疏注意力。這個比例經(jīng)過大量實驗找出的效率與精度之間的平衡點。

在不使用任何額外技術(shù)（如YaRN）的前提下，MiniCPM-SALA 可以將上下文長度拓展至2048K。

怎么保證它們能好好合作，不是互相干擾呢？

SALA用了一個叫HyPE的混合位置編碼策略。在線性層，它保留了RoPE，保證短文本能力不受影響。在稀疏層，它去掉了位置編碼，避免了信息在長距離傳遞時的衰減問題。

模型在檢索幾萬甚至幾十萬token之前的內(nèi)容時，依然能保持高精度。

最后是模型怎么來的。

這里有一個核心問題，要訓練一個全新的混合架構(gòu)模型，成本超級高。

面壁沒有從零開始，反而是提出了一個叫HALO的訓練范式。簡單來說，就是拿一個已經(jīng)訓練好的全注意力模型，比如MiniCPM-4.0，通過架構(gòu)轉(zhuǎn)換，把它的一部分層變成線性注意力，另一部分變成稀疏注意力，然后進行持續(xù)訓練。

這種方式，就像是給一輛性能不錯的汽車做改裝升級，而不是重新設(shè)計一輛新車。它繼承了原模型已經(jīng)學到的所有知識和能力，只是讓它學會了用一種更高效的方式去工作。相比從頭訓練，這個方法的成本直接降低了大約75%。

這個訓練過程也很有講究，分為架構(gòu)轉(zhuǎn)換，穩(wěn)定訓練，短衰減，長衰減和微調(diào)五個階段。特別是在長衰減階段，模型逐步把上下文長度從4K擴展到520K，讓模型充分學習兩種注意力機制協(xié)同。

我們來看效果數(shù)據(jù)。

這次面壁并沒有用一堆榜單來證明自己，是出了真實場景下的性能數(shù)據(jù)，對比的是同等規(guī)模的全注意力模型Qwen3-8B，我挑幾個關(guān)鍵數(shù)據(jù)，

在推理速度上，當上下文長度達到256K時，MiniCPM-SALA的速度是Qwen3-8B的3.5倍。

這個提升完全來自架構(gòu)本身的優(yōu)勢。

在顯存占用上，在RTX 5090這樣的消費級顯卡上，Qwen3-8B在上下文長度達到128K時，就會因為顯存不足而崩潰。而MiniCPM-SALA可以穩(wěn)穩(wěn)地跑到1M，也就是一百萬token的長度。

但我是個挑剔的人，

用了會丟信息的注意力，模型是不是沒腦子了？

這也是這篇工作最有價值的部分。實驗數(shù)據(jù)顯示，MiniCPM-SALA在數(shù)學，代碼，知識問答這些常規(guī)能力上，和同規(guī)模的全注意力模型基本持平，沒有出現(xiàn)明顯的性能折損。

傳統(tǒng)的全注意力模型，在處理長文本時，它的注意力容量被大量消耗在維持局部依賴上，比如識別一個多詞組成的人名。而SALA架構(gòu)，把這些任務(wù)交給了更高效的模塊，從而釋放了稀疏注意力層的容量，讓它們可以更專注于建立全局的，跨越超長距離的上下文聯(lián)系。

為了推動這個架構(gòu)落地，面壁聯(lián)合了SGLang和NVIDIA，發(fā)起了一個稀疏算子加速大獎賽SOAR。

SALA雖然在架構(gòu)上做好了，

但底層的計算算子，相比已經(jīng)被優(yōu)化到極致的FlashAttention，還有很大提升空間。

這個比賽就是邀請全球的開發(fā)者，一起來把SALA這臺新引擎的性能，壓榨到極限。

平時測評模型測多了，

都是Coding，Coding，Coding，

我很高興看到還不斷能有新的架構(gòu)，

新的算法出現(xiàn)，

就算是DeepSeek這一年，

更新模型的同時也沒停過公開自己的算法，

面壁過去這一年也是不停發(fā)端側(cè)模型的工作，

我覺得就這速度都不需要五年十年，

可能過個兩三年，

在小天才手表上也能跑個大大大模型。

@ 作者 / 卡爾

最后，感謝你看到這里如果喜歡這篇文章，不妨順手給我們點贊｜在看｜轉(zhuǎn)發(fā)｜評論

如果想要第一時間收到推送，不妨給我個星標

如果你有更有趣的玩法，歡迎在評論區(qū)和我聊聊

更多的內(nèi)容正在不斷填坑中……

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

女子乘船時同大雁“齊飛”，兩手輕撫托舉畫面和諧美好

北青網(wǎng)-北京青年報 2026-04-21 04:02:12
688 跟貼 688
解放軍133號艦艇編隊從橫當水道進入太平洋專家解讀

環(huán)球網(wǎng)資訊 2026-04-20 12:17:06
165 跟貼 165

保價2000元機蓋運輸中損壞，德邦理賠只肯賠1300元；車主：我不要錢了，你賠我一個機蓋總可以吧

大風新聞 2026-04-20 19:12:04
612 跟貼 612

男子爬上泰山“五岳獨尊”石刻拍照，景區(qū)：將核查其身份進行處理

揚子晚報 2026-04-17 12:09:40
1288 跟貼 1288
驗資3000萬每日預約名單仍排滿，高凈值人群“排隊”看房，4月的杭州樓市是高端局

都市快報橙柿互動 2026-04-20 14:35:53
142 跟貼 142

黎巴嫩再成戰(zhàn)場民眾：在這沒有人沒有失去過親近的人

新京報 2026-04-20 08:22:24
875 跟貼 875

高峰期作業(yè)、粗暴噴灑！深圳市民吐槽灑水車成 “擾民車”

南方都市報 2026-04-20 23:12:18
178 跟貼 178
深圳一火鍋店招985和211大學應(yīng)屆生儲備店長，從服務(wù)員做起，門店負責人：本科生就行，已有985管培生

極目新聞 2026-04-20 14:14:59
343 跟貼 343

浦東新添一家三甲醫(yī)院，上海長征醫(yī)院浦東院區(qū)明起面向社會公眾服務(wù)

澎湃新聞 2026-04-20 13:58:26
461 跟貼 461
上海一“滬A黃牌”摩托車起價34萬將被拍賣，車身估值2500元，車牌值48萬

極目新聞 2026-04-20 13:32:56
286 跟貼 286
樊振東作為戰(zhàn)略投資人觀戰(zhàn)美職乒聯(lián)

大風新聞 2026-04-21 11:21:40
67 跟貼 67
廣西一小學食堂員工疑多次把營養(yǎng)午餐帶回家，官方通報：系將剩余飯菜帶回家喂養(yǎng)家禽，不存在克扣學生營養(yǎng)午餐情況

大象新聞 2026-04-21 09:15:04
190 跟貼 190
5月1日起，醫(yī)療回扣要“涼涼”

中國新聞周刊 2026-04-20 13:21:25
8 跟貼 8
拜仁摘隊史德甲第34冠，主帥孔帕尼：“一切還沒結(jié)束”

環(huán)球網(wǎng)資訊 2026-04-21 06:48:12
99 跟貼 99
鄭柵潔主持召開民營企業(yè)座談會

界面新聞 2026-04-20 17:54:34
196 跟貼 196
意大利呼吁歐盟：恢復進口俄羅斯能源

環(huán)球網(wǎng)資訊 2026-04-21 06:51:23
4 跟貼 4
常州，全國第二！

中吳網(wǎng) 2026-04-21 10:06:15
3 跟貼 3
減速機訂單已排到明年！

財聯(lián)社 2026-04-21 07:54:05
101 跟貼 101
新華時評·首季經(jīng)濟觀察｜新職業(yè)拓展就業(yè)市場新空間

新華社 2026-04-20 17:42:02
153 跟貼 153
滯留迪拜一個半月！MSC神女號順利通過霍爾木茲海峽，船上有200名中國游客

齊魯壹點 2026-04-20 18:30:29
5 跟貼 5
嘉興有姑娘上班入職才1個月，就被辭退了？離職原因太尷尬了！

平湖在線 2026-04-21 11:36:23
0 跟貼 0
連鎖藥店騙保調(diào)查：“串藥、改方、平賬”連環(huán)套，店員直言高提成驅(qū)動

澎湃新聞 2026-04-21 11:35:11
0 跟貼 0
玉林陸川否認“食堂員工將學生營養(yǎng)午餐帶回家”：系剩余飯菜

南方都市報 2026-04-21 11:40:18
0 跟貼 0

卡爾的AI沃茨

前大廠算法工程師，3家科技公司技術(shù)總監(jiān)｜致力打造最系統(tǒng)的Al學習體系，讓1萬人通過Al提高生產(chǎn)力

250文章數(shù) 126關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

時尚

數(shù)碼

游戲

軍事航空

家居要聞

手機 / 數(shù)碼

房產(chǎn) / 家居

大模型又出新架構(gòu)，面壁這次把Transformer上下文能力拉滿了

重磅官宣：庫克卸任，特努斯接任蘋果CEO

7歲男孩高燒40℃渾身"黑化"面臨截肢 只因父母1個疏忽

7歲男孩高燒40℃渾身"黑化"面臨截肢 只因父母1個疏忽

“被優(yōu)化”8年后，國乒方博決定換一條路重新上場

周潤發(fā)時隔16年再賣樓，變現(xiàn)數(shù)億資產(chǎn)

減速機訂單已排到明年！

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

詩意光影 窺見自然之境

“爆冷”又如何？陳法拉的人生本就是一場逆襲大戲

米家電飯煲內(nèi)膽開放單獨選購：不銹鋼/鈦復合膽可選，169元起

育碧確認《刺客信條：黑旗》重制版將于4月24日正式公開

特朗普:美艦向伊朗貨船開火炸出個洞

大模型又出新架構(gòu)，面壁這次把Transformer上下文能力拉滿了

重磅官宣：庫克卸任，特努斯接任蘋果CEO

7歲男孩高燒40℃渾身"黑化"面臨截肢只因父母1個疏忽

7歲男孩高燒40℃渾身"黑化"面臨截肢只因父母1個疏忽

周潤發(fā)時隔16年再賣樓，變現(xiàn)數(shù)億資產(chǎn)

減速機訂單已排到明年！

把天門山搬進廠?開仰望U8沖上45度坡的那刻我腿軟了

詩意光影窺見自然之境

“爆冷”又如何？陳法拉的人生本就是一場逆襲大戲