<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<rt id="28pno"></rt>

<tr id="28pno"></tr>

<u id="28pno"><acronym id="28pno"></acronym></u>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

9B端側開源模型跑通百萬上下文，面壁全新稀疏-線性混合注意力

2026-02-11 21:08:47　來源: 量子位

寧夏舉報

0

分享至

henry 發自凹非寺
量子位 | 公眾號 QbitAI

最強的大模型，已經把scaling卷到了一個新維度：百萬級上下文

幾天前，Claude Opus 4.6發布，讓人第一次真切感受到了百萬上下文的涌現能力——

單次吃進50萬字中文內容、實現跨文檔法律分析、多輪Agent規劃……

此情此景，用戶火速用腳投票，華爾街更是直接給出K線回應。

而這股scaling的風，也很快吹到了端側。

剛剛，面壁智能帶著首次大規模訓練的稀疏與線性混合注意力模型，小年交卷——

這套新注意力架構，不僅解決了傳統Transformer的計算冗余，還第一次在性能無損的前提下，讓9B端側模型能夠在5090顯卡上處理百萬長文本

與此同時，基于SALA注意力架構的模型MiniCPM-SALA也將一并開源。

除此之外，面壁還以OpenBMB社區名義，聯合SGLang與NVIDIA發起2026稀疏算子加速大獎賽（SOAR），將這套scaling能力直接交到開發者手中，推動端側Agent部署的性能突破。

Linear-Sparse混合注意力架構

太長不看，咱直接說重點——

面壁這次全新的線性與稀疏注意力混合架構SALA（Sparse Attention-Linear Attention，SALA），究竟是怎么個混合法呢？

簡單來說，這套架構將75%線性注意力（Lightning Attention）25%稀疏注意力（InfLLM v2）結合，并通過混合位置編碼HyPE（Hybrid Position Encoding）實現兩者的高效協同與超強的長度外推。

線性注意力模塊，Linear-Sparse選用Lightning Attention作為核心算子，負責快速、穩定地建模長文本的全局信息

Lightning Attention的計算方式與傳統全注意力接近，方便現有全注意力模型直接遷移到混合架構，無需從零開始預訓練。

同時，借助QK-normalization輸出門控機制，使線性層在百萬級上下文訓練下保持數值穩定，避免梯度爆炸或下溢。

稀疏注意力模塊，Linear-Sparse采用InfLLMv2來精準捕捉長序列中的關鍵局部信息

InfLLM v2可按需選擇關鍵KV，讓每個Query只計算必要部分，從而大幅提高長文本處理效率。

值得一提的是，InfLLM v2還能在長文本中自動啟用稀疏模式，在標準長度下回退為稠密計算，實現長短文本的無縫切換。

最后，混合位置編碼HyPE（Hybrid Position Encoding)的引入，則保證了線性和稀疏兩種注意力機制的充分協同。

一方面，線性層保留RoPE以維持與原全注意力模型在參數分布和特征空間上的一致性，保證中短文本性能穩健。

另一方面，稀疏層采用NoPE（無位置編碼），讓KV-Cache與位置信息解耦，規避長距離衰減問題，使模型在百萬長度上下文中仍能高效檢索極遠信息。

訓練上，MiniCPM-SALA采用Transformer-to-Hybrid低成本構建方法（HALO）

具體而言，模型通過HALO方法將75%的全注意力層轉換為線性注意力層，整個過程包括參數轉換、隱狀態對齊、層選擇以及知識蒸餾四個步驟。

最終，這套Linear-Sparse設計讓MiniCPM-SALA在端側處理超長文本時，不僅顯存占用極低、計算高效，而且語義精度依然保持領先水平。

為什么百萬上下文，必須是“混合注意力”？

要回答這個問題，得先回到傳統的Full Attention

在經典Transformer里，每生成一個新token，都要和之前所有token做兩兩計算，其計算復雜度是典型的O(N2)。

這意味著，把上下文從1萬拉到100萬，計算量不是漲100倍，而是直接飆升1萬倍。與此同時，為了讓模型“記住”所有歷史信息，還得把KV對全攢在顯存里。

隨著上下文長度增加，KV Cache迅速膨脹，很快就會爆顯存。

由此可見，想解決長上下文問題，注意力機制是核心瓶頸

過去幾年，業界圍繞這一瓶頸探索了多條路線，本質上都是在精度、效率與可部署性之間尋找平衡點

第一類是線性注意力，通常為線性和全注意力結合的混合設計。

它用記憶狀態替代傳統兩兩打分，能將計算復雜度從O(N2)降到O(N)。

優點是可以吃下百萬級上下文，但底層采用有損壓縮，序列越長，早期信息越容易被稀釋，導致上下文遺忘和模型能力下降。

第二類是原生稀疏注意力

只計算關鍵位置，精度接近全注意力，但為了支持長程歷史回顧，仍需全量保存KV Cache，導致端側部署成本高。

第三類是放棄顯式注意力的狀態空間模型，如Mamba。

這類方法推理效率高、幾乎不需要KV Cache，但在精確指令遵循和長距離精確檢索上，仍不夠穩定。

綜上，我們不難看出注意力機制改動是長上下文scaling的主戰場

但真正能同時兼顧百萬級上下文能力、推理效率和端側可落地性的方案，仍然稀缺。

這也是為什么面壁提出Linear-Sparse混合注意力架構的出發點。

用線性機制承擔大規模上下文的承載，用稀疏機制補足關鍵位置的精確建模能力。

在這一架構下，模型不再需要對所有token做完整的兩兩計算，也不必無條件保存全量KV Cache。

新的混合注意力架構可以在顯著降低推理開銷和顯存占用的同時，避免純線性注意力在長程信息召回上的精度損失，以及稀疏注意力在端側設備要求上的局限。

基于這一設計，面壁還開源了MiniCPM-SALA，用來驗證該架構在真實長上下文場景下的潛力。

在效果層面，得益于顯著更低的顯存占用和更高的推理效率，MiniCPM-SALA首次在5090這樣的消費級顯卡上，將1M上下文完整跑通，為長上下文從云端走向端側提供了一條現實可行的路徑。

與此同時，在不依賴投機推理等額外加速算法的前提下，相比同尺寸開源模型，MiniCPM-SALA在256K序列上實現了2倍以上的速度提升。

當序列長度進一步提升至512K甚至1M時，部分同尺寸模型已經遭遇顯存瓶頸，而MiniCPM-SALA依然能夠穩定運行。

（詳細測評結果可參考MiniCPM-SALA的GitHub或Hugging Face README）

從這些結果來看，未來的大模型，并不一定需要Full Attention才能具備完整能力。

當上下文成為第一性資源時，像Linear-Sparse混合注意力這樣的新型注意力設計，正在成為影響模型能否真正落地的重要變量。

2026稀疏算子加速大獎賽

如果說MiniCPM-SALA讓Linear-Sparse混合架構的能力有了實證，那么今年的SOAR（稀疏算子加速大獎賽）就是讓這套技術“落地跑起來”的舞臺。

這場比賽由面壁智能、OpenBMB聯合SGLang社區和NVIDIA共同發起。

旨在通過全球極客的深度協作，共同探索MiniCPM-SALA這一全球首創“稀疏+線性”混合架構模型在1M長文本推理上的性能極限。

具體來說，大賽聚焦于稀疏算子融合與編譯優化等底層技術挑戰，嘗試在消費級GPU上實現百萬Token推理且KV Cache<6GB的極致效率。

比賽時間從2月11日持續到5月29日，設有總獎池超過70萬人民幣的獎勵。

參賽者不僅能測試混合架構在真實硬件上的極限，還能探索端側高效長文本處理的新方法。

比賽鏈接：https://soar.openbmb.cn/

面壁為什么執著于用SALA重構長上下文？

這并不是為了“卷長上下文指標”。

面壁的一大目標是從Densing Law（密度法則）的第一性原理出發，將通用能力強的模型落到智能終端如手機、汽車、機器人等上，而SALA架構的創新是通往羅馬的關鍵：

正是基于對注意力機制的創新，MiniCPM-SALA模型才能足夠高效、顯存占用足夠低，面壁才能首次在5090這樣的消費級GPU 上，把一兆級長文本端側推理真正跑通。

這一步一旦成立，長上下文就不再只是云端模型的特權，而成為端側智能可以依賴的基礎能力。

如果把面壁今年的動作放在一起看，其實不難理解其在端側智能上的整體思路：

從模型底層直通端側生態，核心就是上下文

無論是模型架構的迭代，還是長文本的競技，本質上都是一次針對端側落地的“兩步走”戰略。

而這，并非偶然。

放眼整個行業，Agent的核心瓶頸已從單純的參數量轉向上下文能力——

從模型層的Claude Opus 4.6，到應用層的Claude Cowork、Clawdbot（現OpenClaw），再到評估層的CL-Bench，行業共識已經非常明確：

能否一次吸收、理解并持續利用大量上下文，是決定Agent可用性的關鍵。

與此同時，基于注意力機制優化上下文處理，也已成為學界到產業公認的主戰場。

去年NeurIPS 2025最佳論文給到門控注意力；產業側，Kimi的KDA、DeepSeek的NSA、MiniMax的Lightning相繼推出新方案——

幾乎所有核心玩家，都在attention這條線上持續加碼。

因為這不是一個“工程調優”問題，而是架構級問題。

只有真正具備AGI野心和技術縱深的公司，才有能力從底層架構一路改到上層算法。

也只有真正想把模型能力推到邊界的團隊，才有魄力去挑戰已經被奉為主流、但顯然仍有優化空間的Transformer傳統范式。

而面壁選擇這條路，更是因為其與端側部署的目標高度契合：

首先，端側Agent要處理的包括通訊錄、位置信息、聊天記錄。

出于隱私保護，這些數據無法走向云端。只有讓模型本身具備超長上下文能力，個人助理才能在本地真正“懂你”。

其次，通用榜單已進入紅海，端側開發者關心的問題也已從特定的benchmark，轉向真實世界環境的上下文應用。

這正如DeepSeek研究員茍志斌所言：

預訓練能scaling，RL也能scaling，上下文也能scaling，模型仍在繼續scaling。

換句話說，參數規模已經不再是唯一指標，真正的競爭力在于模型/Agent在復雜上下文中持續推理和行動的能力，這將直接決定模型從demo走向倉庫級代碼助手、行業知識庫Agent。

最后也是最本質的，不解決長文本推理部署成本，端側智能也就無法真正落地。

所以面壁不只做模型，更在做生態：從開源MiniCPM-SALA，到舉辦端側長文本比賽降低部署成本，再到深耕開發者社區，面壁正在拼出一條劍指“百萬上下文時代個人智能體”的主線。

比賽鏈接:

https://soar.openbmb.cn/

技術報告:

https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM SALA.pdf

Github:

https://github.com/openbmb/minicpm

HuggingFace:

https://huggingface.co/openbmb/MiniCPM-SALA

ModelScope:

https://www.modelscope.cn/models/OpenBMB/MiniCPM-SALA

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

中國常駐聯合國代表傅聰重申：日本沒資格要求入常

央視新聞客戶端 2026-02-21 08:01:36
4659 跟貼 4659
中國游客稱因道路積雪被困俄羅斯“極光村” 超40小時，俄媒：滯留游客都已離開

上游新聞 2026-02-17 20:22:05
24829 跟貼 24829

痛心！樹齡1200年古樟持續燃燒7小時，只因倆小孩隨手扔爆竹

環球網資訊 2026-02-21 10:22:16
660 跟貼 660

人氣火爆！江蘇無錫一景區發布限流公告

現代快報 2026-02-19 22:42:05
591 跟貼 591
硅谷大佬拒絕握手，印度AI峰會“槽點”不斷

第一財經資訊 2026-02-20 21:10:47
433 跟貼 433

廣州將迎來三波返程高峰

新快報新聞 2026-02-20 20:03:11
118 跟貼 118

哈爾濱冰雪大世界臨時閉園2天，網友稱有冰雕開始融化，客服稱正在修整，重新開園后門票降價100元

極目新聞 2026-02-19 23:22:54
309 跟貼 309
特斯拉新車正式下線：無方向盤、無踏板、無后視鏡；定價不高于3萬美元，“不需要人開，直接輸入目的地即可”

中國能源網 2026-02-20 19:18:19
1720 跟貼 1720

訂單排到4月！山東福安達春節不打烊全力趕生產

齊魯壹點 2026-02-20 18:07:10
247 跟貼 247
柬埔寨向26國通報

澎湃新聞 2026-02-21 02:12:47
174 跟貼 174
美國2025年國內生產總值（GDP）增長2.2%，低于2024年的2.8%

每日經濟新聞 2026-02-20 21:43:05
201 跟貼 201
大超市爆改文商旅綜合體，“金陵長樂坊”開市首日人氣爆棚

現代快報 2026-02-19 22:53:05
602 跟貼 602
一天涌入20.4萬人！無錫到處都在排隊！

江南晚報 2026-02-20 18:33:51
355 跟貼 355
大年初五迎財神，馬年理財錢投哪？

上觀新聞 2026-02-21 12:09:05
36 跟貼 36
美航天局：載人繞月任務發射將于3月6日進行

央視新聞客戶端 2026-02-21 07:43:36
682 跟貼 682
英媒：英國政府考慮立法取消安德魯王位繼承權

環球網資訊 2026-02-21 07:10:25
82 跟貼 82
罄！告急！有跨省回上海返程機票高達11560元

新民晚報 2026-02-21 12:30:00
0 跟貼 0
韓國歷史學家：韓中兩國需共同調研抗日斗爭史

澎湃新聞 2026-02-21 11:42:58
6 跟貼 6
俄戰略轟炸機在白令海完成計劃飛行有外國戰機伴飛

界面新聞 2026-02-20 20:37:08
396 跟貼 396
7名中國游客在貝加爾湖溺亡：目擊者講事發經過，被嚇到手腳發軟

漢史趣聞 2026-02-21 17:13:09
0 跟貼 0
iPhone 18 Pro續航有望再突破：三大升級加持

環球網資訊 2026-02-21 09:39:01
99 跟貼 99
走進春天，觸摸這躍動的生命圖景

海外網 2026-02-21 15:07:09
6 跟貼 6
33.9萬！火鍋店稱把春節4天盈利分給員工，老板：去年關了兩家店但春節福利要堅持

紅星新聞 2026-02-21 10:12:08
0 跟貼 0
大年初三常德一男子拜年喝1斤白酒，在火車站“斷片”，眾人暖心守護緊急送醫

瀟湘晨報 2026-02-21 17:18:12
0 跟貼 0
演員姚晨發文稱過年被媽媽“罵”了三天！網友：家家都一樣，我扔，我媽在后面撿

環球網資訊 2026-02-21 17:27:08
0 跟貼 0

繼續北伐！騎士5分險勝黃蜂，產生一大不可思議，兩個不爭事實！

繼續北伐！騎士5分險勝黃蜂，產生一大不可思議，兩個不爭事實！

林子說事

2026-02-21 13:37:51

表面謙謙君子，實則“一肚子壞水”，這4位老藝人太讓人意外了

表面謙謙君子，實則“一肚子壞水”，這4位老藝人太讓人意外了

無人傾聽無人傾聽

2026-02-18 18:19:25

特朗普回憶2017年訪華經歷，贊嘆中國儀仗隊強大陣容：我從未見過這么多士兵身高完全一致；此前特朗普吹噓美軍個個都是“湯姆·克魯斯”

特朗普回憶2017年訪華經歷，贊嘆中國儀仗隊強大陣容：我從未見過這么多士兵身高完全一致；此前特朗普吹噓美軍個個都是“湯姆·克魯斯”

大象新聞

2026-02-20 19:44:14

@成都人這兩天抓緊曬太陽！降溫+降雨+大風在路上了

@成都人這兩天抓緊曬太陽！降溫+降雨+大風在路上了

愛看頭條

2026-02-21 12:36:59

谷愛凌U型池決戰在即，統治力遭質疑，預賽第一名將發布奪金宣言

谷愛凌U型池決戰在即，統治力遭質疑，預賽第一名將發布奪金宣言

楊華評論

2026-02-21 02:43:22

不可錯過！2月21日下午18:00比賽！中央5套CCTV5、CCTV5+直播表

不可錯過！2月21日下午18:00比賽！中央5套CCTV5、CCTV5+直播表

皮皮觀天下

2026-02-21 15:19:16

春節剛過，這波“惡心”操作炸出多少中國人的真實面目

春節剛過，這波“惡心”操作炸出多少中國人的真實面目

小怪吃美食

2026-02-21 16:38:20

一夜爆火！全球缺貨排隊等5年！2026年最被低估的硬核賽道

一夜爆火！全球缺貨排隊等5年！2026年最被低估的硬核賽道

時尚的弄潮

2026-02-21 16:15:47

馬洛塔的任務！阿森納開搶國米第一新星，續約問題商討刻不容緩

馬洛塔的任務！阿森納開搶國米第一新星，續約問題商討刻不容緩

里芃芃體育

2026-02-21 09:30:09

中俄艦艇都到了，美軍還打不打伊朗？特朗普攤牌，一句話非比尋常

中俄艦艇都到了，美軍還打不打伊朗？特朗普攤牌，一句話非比尋常

嫹筆牂牂

2026-02-21 16:24:51

尺度拉滿！HBO 這 10 部暴美劇，看過 3 部都是狠人！

尺度拉滿！HBO 這 10 部暴美劇，看過 3 部都是狠人！

陳意小可愛

2026-02-21 16:24:46

奧運冠軍萊爾丹破紀錄后露出耐克logo，營銷專家預測或獲百萬美元代言

奧運冠軍萊爾丹破紀錄后露出耐克logo，營銷專家預測或獲百萬美元代言

懂球帝

2026-02-20 17:12:06

退休后，存款高于“這個數”，你的家庭就很有底氣了，說話都硬氣

退休后，存款高于“這個數”，你的家庭就很有底氣了，說話都硬氣

墜入二次元的海洋

2026-02-10 20:04:42

別追黃金牛市了！金價破6500美元是比08年次貸危機更狠的危機來了

別追黃金牛市了！金價破6500美元是比08年次貸危機更狠的危機來了

別人都叫我阿腈

2026-02-21 13:31:10

日本的苦日子，還在后面

六爺阿旦

2026-01-20 17:07:06

開打！海上突傳巨大撞擊聲，兩艘美軍艦，撞了！美開火3人被打死

開打！海上突傳巨大撞擊聲，兩艘美軍艦，撞了！美開火3人被打死

趣生活

2026-02-20 21:30:01

17歲女兒穿著太成熟，母親錄視頻吐槽：像47歲！

17歲女兒穿著太成熟，母親錄視頻吐槽：像47歲！

蝴蝶花雨話教育

2025-11-15 03:40:03

《低俗小說》演員死因曝光：自己玩槍不慎走火身亡

《低俗小說》演員死因曝光：自己玩槍不慎走火身亡

情感大頭說說

2026-02-19 19:48:20

“2萬壓歲錢該不該上交父母”引熱議律師：所有權歸孩子，父母可代管但不能隨意用

“2萬壓歲錢該不該上交父母”引熱議律師：所有權歸孩子，父母可代管但不能隨意用

紅星新聞

2026-02-20 20:06:09

從未打過仗的文官，一戰為南宋續命118年，主席稱其“千古一人”

從未打過仗的文官，一戰為南宋續命118年，主席稱其“千古一人”

鶴羽說個事

2026-01-23 16:24:27

追蹤人工智能動態

12186文章數 176389關注度

往期回顧全部

科技要聞

智譜上市1月漲5倍，市值超越京東、快手

頭條要聞

省直機關女工程師陷美男計拉公職人員丈夫當間諜17年

頭條要聞

省直機關女工程師陷美男計拉公職人員丈夫當間諜17年

體育要聞

冬奧第一"海王"？一人和13國選手都有關系

娛樂要聞

鏢人反超驚蟄無聲拿下單日票房第二！

財經要聞

一覺醒來，世界大變，特朗普改新打法了

汽車要聞

比亞迪的“顏值擔當”來了方程豹首款轎車路跑信息曝光

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

親子

藝術

公開課

軍事航空

教育要聞

新春走基層 | 慢飛天使捏出 “年的形狀”

親子要聞

誰能猜出他倆是什么關系？

藝術要聞

皇家秘藏的《金剛經》，這才叫最美中國字！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

軍事要聞

硬核揭秘！福建艦“一馬當先”底氣何在

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<center id="g8a89"></center>

<wbr id="g8a89"><cite id="g8a89"><noscript id="g8a89"></noscript></cite></wbr>

<pre id="g8a89"><dfn id="g8a89"></dfn></pre>