<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      9B端側開源模型跑通百萬上下文,面壁全新稀疏-線性混合注意力

      0
      分享至

      henry 發自 凹非寺
      量子位 | 公眾號 QbitAI

      最強的大模型,已經把scaling卷到了一個新維度:百萬級上下文

      幾天前,Claude Opus 4.6發布,讓人第一次真切感受到了百萬上下文的涌現能力——

      單次吃進50萬字中文內容、實現跨文檔法律分析、多輪Agent規劃……

      此情此景,用戶火速用腳投票,華爾街更是直接給出K線回應。



      而這股scaling的風,也很快吹到了端側。

      剛剛,面壁智能帶著首次大規模訓練的稀疏與線性混合注意力模型,小年交卷——

      這套新注意力架構,不僅解決了傳統Transformer的計算冗余,還第一次在性能無損的前提下,讓9B端側模型能夠在5090顯卡上處理百萬長文本

      與此同時,基于SALA注意力架構的模型MiniCPM-SALA也將一并開源。

      除此之外,面壁還以OpenBMB社區名義,聯合SGLang與NVIDIA發起2026稀疏算子加速大獎賽(SOAR),將這套scaling能力直接交到開發者手中,推動端側Agent部署的性能突破。

      Linear-Sparse混合注意力架構

      太長不看,咱直接說重點——

      面壁這次全新的線性與稀疏注意力混合架構SALA(Sparse Attention-Linear Attention,SALA),究竟是怎么個混合法呢?

      簡單來說,這套架構將75%線性注意力(Lightning Attention)25%稀疏注意力(InfLLM v2)結合,并通過混合位置編碼HyPE(Hybrid Position Encoding)實現兩者的高效協同與超強的長度外推。



      線性注意力模塊,Linear-Sparse選用Lightning Attention作為核心算子,負責快速、穩定地建模長文本的全局信息



      Lightning Attention的計算方式與傳統全注意力接近,方便現有全注意力模型直接遷移到混合架構,無需從零開始預訓練。

      同時,借助QK-normalization輸出門控機制,使線性層在百萬級上下文訓練下保持數值穩定,避免梯度爆炸或下溢。

      稀疏注意力模塊,Linear-Sparse采用InfLLMv2來精準捕捉長序列中的關鍵局部信息



      InfLLM v2可按需選擇關鍵KV,讓每個Query只計算必要部分,從而大幅提高長文本處理效率。

      值得一提的是,InfLLM v2還能在長文本中自動啟用稀疏模式,在標準長度下回退為稠密計算,實現長短文本的無縫切換。

      最后,混合位置編碼HyPE(Hybrid Position Encoding)的引入,則保證了線性和稀疏兩種注意力機制的充分協同。

      一方面,線性層保留RoPE以維持與原全注意力模型在參數分布和特征空間上的一致性,保證中短文本性能穩健。

      另一方面,稀疏層采用NoPE(無位置編碼),讓KV-Cache與位置信息解耦,規避長距離衰減問題,使模型在百萬長度上下文中仍能高效檢索極遠信息。

      訓練上,MiniCPM-SALA采用Transformer-to-Hybrid低成本構建方法(HALO)



      具體而言,模型通過HALO方法將75%的全注意力層轉換為線性注意力層,整個過程包括參數轉換、隱狀態對齊、層選擇以及知識蒸餾四個步驟。

      最終,這套Linear-Sparse設計讓MiniCPM-SALA在端側處理超長文本時,不僅顯存占用極低、計算高效,而且語義精度依然保持領先水平。

      為什么百萬上下文,必須是“混合注意力”?

      要回答這個問題,得先回到傳統的Full Attention



      在經典Transformer里,每生成一個新token,都要和之前所有token做兩兩計算,其計算復雜度是典型的O(N2)。

      這意味著,把上下文從1萬拉到100萬,計算量不是漲100倍,而是直接飆升1萬倍。與此同時,為了讓模型“記住”所有歷史信息,還得把KV對全攢在顯存里。

      隨著上下文長度增加,KV Cache迅速膨脹,很快就會爆顯存。

      由此可見,想解決長上下文問題,注意力機制是核心瓶頸

      過去幾年,業界圍繞這一瓶頸探索了多條路線,本質上都是在精度、效率與可部署性之間尋找平衡點

      第一類是線性注意力,通常為線性和全注意力結合的混合設計。

      它用記憶狀態替代傳統兩兩打分,能將計算復雜度從O(N2)降到O(N)。

      優點是可以吃下百萬級上下文,但底層采用有損壓縮,序列越長,早期信息越容易被稀釋,導致上下文遺忘和模型能力下降。

      第二類是原生稀疏注意力

      只計算關鍵位置,精度接近全注意力,但為了支持長程歷史回顧,仍需全量保存KV Cache,導致端側部署成本高。

      第三類是放棄顯式注意力的狀態空間模型,如Mamba。

      這類方法推理效率高、幾乎不需要KV Cache,但在精確指令遵循和長距離精確檢索上,仍不夠穩定。

      綜上,我們不難看出注意力機制改動是長上下文scaling的主戰場

      但真正能同時兼顧百萬級上下文能力、推理效率和端側可落地性的方案,仍然稀缺。

      這也是為什么面壁提出Linear-Sparse混合注意力架構的出發點。

      用線性機制承擔大規模上下文的承載,用稀疏機制補足關鍵位置的精確建模能力。

      在這一架構下,模型不再需要對所有token做完整的兩兩計算,也不必無條件保存全量KV Cache。

      新的混合注意力架構可以在顯著降低推理開銷和顯存占用的同時,避免純線性注意力在長程信息召回上的精度損失,以及稀疏注意力在端側設備要求上的局限。

      基于這一設計,面壁還開源了MiniCPM-SALA,用來驗證該架構在真實長上下文場景下的潛力。

      在效果層面,得益于顯著更低的顯存占用和更高的推理效率,MiniCPM-SALA首次在5090這樣的消費級顯卡上,將1M上下文完整跑通,為長上下文從云端走向端側提供了一條現實可行的路徑。

      與此同時,在不依賴投機推理等額外加速算法的前提下,相比同尺寸開源模型,MiniCPM-SALA在256K序列上實現了2倍以上的速度提升。

      當序列長度進一步提升至512K甚至1M時,部分同尺寸模型已經遭遇顯存瓶頸,而MiniCPM-SALA依然能夠穩定運行。

      (詳細測評結果可參考MiniCPM-SALA的GitHub或Hugging Face README)

      從這些結果來看,未來的大模型,并不一定需要Full Attention才能具備完整能力。

      當上下文成為第一性資源時,像Linear-Sparse混合注意力這樣的新型注意力設計,正在成為影響模型能否真正落地的重要變量。

      2026稀疏算子加速大獎賽

      如果說MiniCPM-SALA讓Linear-Sparse混合架構的能力有了實證,那么今年的SOAR(稀疏算子加速大獎賽)就是讓這套技術“落地跑起來”的舞臺。

      這場比賽由面壁智能、OpenBMB聯合SGLang社區和NVIDIA共同發起。

      旨在通過全球極客的深度協作,共同探索MiniCPM-SALA這一全球首創“稀疏+線性”混合架構模型在1M長文本推理上的性能極限。

      具體來說,大賽聚焦于稀疏算子融合與編譯優化等底層技術挑戰,嘗試在消費級GPU上實現百萬Token推理且KV Cache<6GB的極致效率。

      比賽時間從2月11日持續到5月29日,設有總獎池超過70萬人民幣的獎勵。

      參賽者不僅能測試混合架構在真實硬件上的極限,還能探索端側高效長文本處理的新方法。

      比賽鏈接:https://soar.openbmb.cn/



      面壁為什么執著于用SALA重構長上下文?

      這并不是為了“卷長上下文指標”。

      面壁的一大目標是從Densing Law(密度法則)的第一性原理出發,將通用能力強的模型落到智能終端如手機、汽車、機器人等上,而SALA架構的創新是通往羅馬的關鍵:

      正是基于對注意力機制的創新,MiniCPM-SALA模型才能足夠高效、顯存占用足夠低,面壁才能首次在5090這樣的消費級GPU 上,把一兆級長文本端側推理真正跑通。

      這一步一旦成立,長上下文就不再只是云端模型的特權,而成為端側智能可以依賴的基礎能力。

      如果把面壁今年的動作放在一起看,其實不難理解其在端側智能上的整體思路:

      從模型底層直通端側生態,核心就是上下文

      無論是模型架構的迭代,還是長文本的競技,本質上都是一次針對端側落地的“兩步走”戰略。

      而這,并非偶然。

      放眼整個行業,Agent的核心瓶頸已從單純的參數量轉向上下文能力——

      從模型層的Claude Opus 4.6,到應用層的Claude Cowork、Clawdbot(現OpenClaw),再到評估層的CL-Bench,行業共識已經非常明確:

      能否一次吸收、理解并持續利用大量上下文,是決定Agent可用性的關鍵。

      與此同時,基于注意力機制優化上下文處理,也已成為學界到產業公認的主戰場。

      去年NeurIPS 2025最佳論文給到門控注意力;產業側,Kimi的KDA、DeepSeek的NSA、MiniMax的Lightning相繼推出新方案——

      幾乎所有核心玩家,都在attention這條線上持續加碼。

      因為這不是一個“工程調優”問題,而是架構級問題。

      只有真正具備AGI野心和技術縱深的公司,才有能力從底層架構一路改到上層算法。

      也只有真正想把模型能力推到邊界的團隊,才有魄力去挑戰已經被奉為主流、但顯然仍有優化空間的Transformer傳統范式。

      而面壁選擇這條路,更是因為其與端側部署的目標高度契合:

      首先,端側Agent要處理的包括通訊錄、位置信息、聊天記錄。

      出于隱私保護,這些數據無法走向云端。只有讓模型本身具備超長上下文能力,個人助理才能在本地真正“懂你”。

      其次,通用榜單已進入紅海,端側開發者關心的問題也已從特定的benchmark,轉向真實世界環境的上下文應用。

      這正如DeepSeek研究員茍志斌所言:

      • 預訓練能scaling,RL也能scaling,上下文也能scaling,模型仍在繼續scaling。



      換句話說,參數規模已經不再是唯一指標,真正的競爭力在于模型/Agent在復雜上下文中持續推理和行動的能力,這將直接決定模型從demo走向倉庫級代碼助手、行業知識庫Agent。

      最后也是最本質的,不解決長文本推理部署成本,端側智能也就無法真正落地。

      所以面壁不只做模型,更在做生態:從開源MiniCPM-SALA,到舉辦端側長文本比賽降低部署成本,再到深耕開發者社區,面壁正在拼出一條劍指“百萬上下文時代個人智能體”的主線。

      比賽鏈接:

      https://soar.openbmb.cn/

      技術報告:

      https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM SALA.pdf

      Github:

      https://github.com/openbmb/minicpm

      HuggingFace:

      https://huggingface.co/openbmb/MiniCPM-SALA

      ModelScope:

      https://www.modelscope.cn/models/OpenBMB/MiniCPM-SALA

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      繼續北伐!騎士5分險勝黃蜂,產生一大不可思議,兩個不爭事實!

      繼續北伐!騎士5分險勝黃蜂,產生一大不可思議,兩個不爭事實!

      林子說事
      2026-02-21 13:37:51
      表面謙謙君子,實則“一肚子壞水”,這4位老藝人太讓人意外了

      表面謙謙君子,實則“一肚子壞水”,這4位老藝人太讓人意外了

      無人傾聽無人傾聽
      2026-02-18 18:19:25
      特朗普回憶2017年訪華經歷,贊嘆中國儀仗隊強大陣容:我從未見過這么多士兵身高完全一致;此前特朗普吹噓美軍個個都是“湯姆·克魯斯”

      特朗普回憶2017年訪華經歷,贊嘆中國儀仗隊強大陣容:我從未見過這么多士兵身高完全一致;此前特朗普吹噓美軍個個都是“湯姆·克魯斯”

      大象新聞
      2026-02-20 19:44:14
      @成都人 這兩天抓緊曬太陽!降溫+降雨+大風在路上了

      @成都人 這兩天抓緊曬太陽!降溫+降雨+大風在路上了

      愛看頭條
      2026-02-21 12:36:59
      谷愛凌U型池決戰在即,統治力遭質疑,預賽第一名將發布奪金宣言

      谷愛凌U型池決戰在即,統治力遭質疑,預賽第一名將發布奪金宣言

      楊華評論
      2026-02-21 02:43:22
      不可錯過!2月21日下午18:00比賽!中央5套CCTV5、CCTV5+直播表

      不可錯過!2月21日下午18:00比賽!中央5套CCTV5、CCTV5+直播表

      皮皮觀天下
      2026-02-21 15:19:16
      春節剛過,這波“惡心”操作炸出多少中國人的真實面目

      春節剛過,這波“惡心”操作炸出多少中國人的真實面目

      小怪吃美食
      2026-02-21 16:38:20
      一夜爆火!全球缺貨排隊等5年!2026年最被低估的硬核賽道

      一夜爆火!全球缺貨排隊等5年!2026年最被低估的硬核賽道

      時尚的弄潮
      2026-02-21 16:15:47
      馬洛塔的任務!阿森納開搶國米第一新星,續約問題商討刻不容緩

      馬洛塔的任務!阿森納開搶國米第一新星,續約問題商討刻不容緩

      里芃芃體育
      2026-02-21 09:30:09
      中俄艦艇都到了,美軍還打不打伊朗?特朗普攤牌,一句話非比尋常

      中俄艦艇都到了,美軍還打不打伊朗?特朗普攤牌,一句話非比尋常

      嫹筆牂牂
      2026-02-21 16:24:51
      尺度拉滿!HBO 這 10 部暴美劇,看過 3 部都是狠人!

      尺度拉滿!HBO 這 10 部暴美劇,看過 3 部都是狠人!

      陳意小可愛
      2026-02-21 16:24:46
      奧運冠軍萊爾丹破紀錄后露出耐克logo,營銷專家預測或獲百萬美元代言

      奧運冠軍萊爾丹破紀錄后露出耐克logo,營銷專家預測或獲百萬美元代言

      懂球帝
      2026-02-20 17:12:06
      退休后,存款高于“這個數”,你的家庭就很有底氣了,說話都硬氣

      退休后,存款高于“這個數”,你的家庭就很有底氣了,說話都硬氣

      墜入二次元的海洋
      2026-02-10 20:04:42
      別追黃金牛市了!金價破6500美元是比08年次貸危機更狠的危機來了

      別追黃金牛市了!金價破6500美元是比08年次貸危機更狠的危機來了

      別人都叫我阿腈
      2026-02-21 13:31:10
      日本的苦日子,還在后面

      日本的苦日子,還在后面

      六爺阿旦
      2026-01-20 17:07:06
      開打!海上突傳巨大撞擊聲,兩艘美軍艦,撞了!美開火3人被打死

      開打!海上突傳巨大撞擊聲,兩艘美軍艦,撞了!美開火3人被打死

      趣生活
      2026-02-20 21:30:01
      17歲女兒穿著太成熟,母親錄視頻吐槽:像47歲!

      17歲女兒穿著太成熟,母親錄視頻吐槽:像47歲!

      蝴蝶花雨話教育
      2025-11-15 03:40:03
      《低俗小說》演員死因曝光:自己玩槍不慎走火身亡

      《低俗小說》演員死因曝光:自己玩槍不慎走火身亡

      情感大頭說說
      2026-02-19 19:48:20
      “2萬壓歲錢該不該上交父母”引熱議 律師:所有權歸孩子,父母可代管但不能隨意用

      “2萬壓歲錢該不該上交父母”引熱議 律師:所有權歸孩子,父母可代管但不能隨意用

      紅星新聞
      2026-02-20 20:06:09
      從未打過仗的文官,一戰為南宋續命118年,主席稱其“千古一人”

      從未打過仗的文官,一戰為南宋續命118年,主席稱其“千古一人”

      鶴羽說個事
      2026-01-23 16:24:27
      2026-02-21 17:56:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12186文章數 176389關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      省直機關女工程師陷美男計 拉公職人員丈夫當間諜17年

      頭條要聞

      省直機關女工程師陷美男計 拉公職人員丈夫當間諜17年

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      教育
      親子
      藝術
      公開課
      軍事航空

      教育要聞

      新春走基層 | 慢飛天使捏出 “年的形狀”

      親子要聞

      誰能猜出他倆是什么關系?

      藝術要聞

      皇家秘藏的《金剛經》,這才叫最美中國字!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      硬核揭秘!福建艦“一馬當先”底氣何在

      無障礙瀏覽 進入關懷版