<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型又出新架構,面壁這次把Transformer上下文能力拉滿了

      0
      分享至

      我有點好奇一個問題,

      讓現階段一個百萬上下文的大模型讀一本百萬字的小說,需要推理嗎?

      可能大部分時候不需要,它需要的只是記住,記住第一章的主角在最后一章說了什么。

      現在傳統的Transformer架構只有一種處理方式,全靠硬算。它像一個過于認真的前排學霸,為了記住最后一章的內容,把前面九十九萬字的內容跟每一個新生成的字都做一次對比計算。


      這樣會占大量的顯存,計算量也會平方級增長。

      這一周新的大模型也是不停刷新,MiniMax M2.5,GLM5,Gemini 3.1 Pro Preview,DeepSeek新版本(疑似V4),我都希望他們可以接入我的OpenClaw里面,做一個長對話長記憶的模型。

      昨天,面壁還發了一篇新論文,提出了一個叫SALA(Sparse Attention-Linear Attention)的混合注意力架構。它給出了一個新觀點,

      該快的地方就得快,該準的地方必須準。


      https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

      在他們的SALA架構里,

      一部分模塊專門負責快,

      另一部分模塊專門負責準。

      結果就是,基于SALA架構的模型,在端側顯卡上,第一次把百萬的長文本推理,穩穩跑通了。


      我們來看一個具體的例子,

      模型在處理百萬字小說時,內部發生了什么。

      每生成一個新詞,模型都要把它和前面所有詞語的鍵值對,也就是KV Cache,全部計算一遍。計算復雜度是隨著文本長度平方級增長的,

      同時,這個KV Cache會像滾雪球一樣,迅速吃掉你所有的顯存。把上下文從一萬字拉到一百萬字,計算量不是漲一百倍,是飆升一萬倍。

      這就是為什么傳統架構在長上下文任務面前,會同時撞上計算墻和顯存墻。


      這幾十萬字的上下文,大部分可能只是背景描述,真正關鍵的信息也許就那么幾句。

      但模型為了找到這幾句關鍵信息,付出的代價是把所有內容都用最高精度過了一遍。

      來看看SALA的幾個關鍵的設計,

      首先是兩種模塊的分工。

      線性注意力,我們這里可以理解為負責準的模塊,面壁選用的是Lightning Attention,挑出那些最關鍵的局部信息進行精細計算。稀疏注意力,則是負責快的模塊,面壁選用的是InfLLM v2,會高效計算所有信息。

      SALA就是把這兩者結合了起來。整個模型里,75%的層是負責準的線性注意力,剩下的25%,是負責快的稀疏注意力。這個比例經過大量實驗找出的效率與精度之間的平衡點。


      在不使用任何額外技術(如YaRN)的前提下,MiniCPM-SALA 可以將上下文長度拓展至2048K。

      怎么保證它們能好好合作,不是互相干擾呢?

      SALA用了一個叫HyPE的混合位置編碼策略。在線性層,它保留了RoPE,保證短文本能力不受影響。在稀疏層,它去掉了位置編碼,避免了信息在長距離傳遞時的衰減問題。

      模型在檢索幾萬甚至幾十萬token之前的內容時,依然能保持高精度。


      最后是模型怎么來的。

      這里有一個核心問題,要訓練一個全新的混合架構模型,成本超級高。

      面壁沒有從零開始,反而是提出了一個叫HALO的訓練范式。簡單來說,就是拿一個已經訓練好的全注意力模型,比如MiniCPM-4.0,通過架構轉換,把它的一部分層變成線性注意力,另一部分變成稀疏注意力,然后進行持續訓練。


      這種方式,就像是給一輛性能不錯的汽車做改裝升級,而不是重新設計一輛新車。它繼承了原模型已經學到的所有知識和能力,只是讓它學會了用一種更高效的方式去工作。相比從頭訓練,這個方法的成本直接降低了大約75%。

      這個訓練過程也很有講究,分為架構轉換,穩定訓練,短衰減,長衰減和微調五個階段。特別是在長衰減階段,模型逐步把上下文長度從4K擴展到520K,讓模型充分學習兩種注意力機制協同。

      我們來看效果數據。

      這次面壁并沒有用一堆榜單來證明自己,是出了真實場景下的性能數據,對比的是同等規模的全注意力模型Qwen3-8B,我挑幾個關鍵數據,

      在推理速度上,當上下文長度達到256K時,MiniCPM-SALA的速度是Qwen3-8B的3.5倍。

      這個提升完全來自架構本身的優勢。


      在顯存占用上,在RTX 5090這樣的消費級顯卡上,Qwen3-8B在上下文長度達到128K時,就會因為顯存不足而崩潰。而MiniCPM-SALA可以穩穩地跑到1M,也就是一百萬token的長度。


      但我是個挑剔的人,

      用了會丟信息的注意力,模型是不是沒腦子了?

      這也是這篇工作最有價值的部分。實驗數據顯示,MiniCPM-SALA在數學,代碼,知識問答這些常規能力上,和同規模的全注意力模型基本持平,沒有出現明顯的性能折損。


      傳統的全注意力模型,在處理長文本時,它的注意力容量被大量消耗在維持局部依賴上,比如識別一個多詞組成的人名。而SALA架構,把這些任務交給了更高效的模塊,從而釋放了稀疏注意力層的容量,讓它們可以更專注于建立全局的,跨越超長距離的上下文聯系。

      為了推動這個架構落地,面壁聯合了SGLang和NVIDIA,發起了一個稀疏算子加速大獎賽SOAR。


      SALA雖然在架構上做好了,

      但底層的計算算子,相比已經被優化到極致的FlashAttention,還有很大提升空間。

      這個比賽就是邀請全球的開發者,一起來把SALA這臺新引擎的性能,壓榨到極限。

      平時測評模型測多了,

      都是Coding,Coding,Coding,

      我很高興看到還不斷能有新的架構,

      新的算法出現,

      就算是DeepSeek這一年,

      更新模型的同時也沒停過公開自己的算法,

      面壁過去這一年也是不停發端側模型的工作,

      我覺得就這速度都不需要五年十年,

      可能過個兩三年,

      在小天才手表上也能跑個大大大模型。

      @ 作者 / 卡爾

      最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論

      如果想要第一時間收到推送,不妨給我個星標

      如果你有更有趣的玩法,歡迎在評論區和我聊聊

      更多的內容正在不斷填坑中……


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “我老公家要絕后了,我娘家也要絕后了”,一廣西網友發帖引共鳴

      “我老公家要絕后了,我娘家也要絕后了”,一廣西網友發帖引共鳴

      火山詩話
      2026-02-26 09:41:57
      平頂山“夫妻打人事件”,最狠毒者是老太

      平頂山“夫妻打人事件”,最狠毒者是老太

      方清云
      2026-02-25 17:44:53
      多家上市公司回應津巴布韋暫停鋰礦出口影響

      多家上市公司回應津巴布韋暫停鋰礦出口影響

      財聯社
      2026-02-26 13:42:06
      巴強硬接管港口后,美媒得意忘形,話音剛落,中方反手掐住七寸!

      巴強硬接管港口后,美媒得意忘形,話音剛落,中方反手掐住七寸!

      午夜搭車a
      2026-02-26 03:08:34
      別被永久產權忽悠了!臺灣房產真比大陸70年產權香?真相扎心了

      別被永久產權忽悠了!臺灣房產真比大陸70年產權香?真相扎心了

      形上謂道
      2026-02-24 11:02:56
      一對夫妻自駕從新疆喀什到重慶,因晚5秒錯過免費高速時間付1700余元,“當時又好笑又好氣,當長教訓了”

      一對夫妻自駕從新疆喀什到重慶,因晚5秒錯過免費高速時間付1700余元,“當時又好笑又好氣,當長教訓了”

      大象新聞
      2026-02-25 23:41:07
      事件再升級!曲婉婷幕后團隊曝光,撈金失敗不到48小時迎3大噩耗

      事件再升級!曲婉婷幕后團隊曝光,撈金失敗不到48小時迎3大噩耗

      奇思妙想草葉君
      2026-02-25 17:25:22
      英國女婿瘋狂愛上貴州砂糖橘,春節期間幾乎一日三餐當飯吃,一個月后把自己吃成“小黃人”

      英國女婿瘋狂愛上貴州砂糖橘,春節期間幾乎一日三餐當飯吃,一個月后把自己吃成“小黃人”

      觀威海
      2026-02-26 10:26:04
      “別吱聲,我跟趙車長打好招呼了”,K692次列車被指安排“人情座”,女子在擁擠車廂內打電話請人安排座位,鐵路部門:目前正在調查

      “別吱聲,我跟趙車長打好招呼了”,K692次列車被指安排“人情座”,女子在擁擠車廂內打電話請人安排座位,鐵路部門:目前正在調查

      揚子晚報
      2026-02-26 11:28:40
      《飛馳人生》片尾感謝王思聰借出千萬豪車當背景,韓寒這面子真大

      《飛馳人生》片尾感謝王思聰借出千萬豪車當背景,韓寒這面子真大

      草莓解說體育
      2026-02-26 00:44:23
      向華強回應遺產問題:和向太達成一致都交給郭碧婷來管,一分錢不留給兒子,并稱向太已將向佑拉黑

      向華強回應遺產問題:和向太達成一致都交給郭碧婷來管,一分錢不留給兒子,并稱向太已將向佑拉黑

      19樓
      2026-02-26 08:12:00
      云南天價拖車費越鬧越大!車主被威脅,拖車公司被扒,果然不簡單

      云南天價拖車費越鬧越大!車主被威脅,拖車公司被扒,果然不簡單

      觀察鑒娛
      2026-02-26 10:11:06
      中國音樂家紐約路邊換胎被撞身亡,年僅35歲

      中國音樂家紐約路邊換胎被撞身亡,年僅35歲

      揚子晚報
      2026-02-26 10:51:43
      全國統一執行!3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

      全國統一執行!3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

      福建平子
      2026-02-25 10:54:52
      大一女學生坐硬座31小時返校心臟驟停,醫護極限6小時搶回生命,醫生:為經濟艙綜合征

      大一女學生坐硬座31小時返校心臟驟停,醫護極限6小時搶回生命,醫生:為經濟艙綜合征

      大象新聞
      2026-02-25 23:41:17
      74歲陳凱歌在三亞豪宅過年,屋內一塵不染,沒有多余花哨的擺件

      74歲陳凱歌在三亞豪宅過年,屋內一塵不染,沒有多余花哨的擺件

      小娛樂悠悠
      2026-02-26 09:44:41
      男子在順風車上排便后“失聯”,車主無奈報警!平臺回應:賠償車主519元,涉事乘客已被封號

      男子在順風車上排便后“失聯”,車主無奈報警!平臺回應:賠償車主519元,涉事乘客已被封號

      揚子晚報
      2026-02-25 22:20:40
      堵車的源頭找到了!懷化一高速長達12公里擁堵,居然是司機睡著了

      堵車的源頭找到了!懷化一高速長達12公里擁堵,居然是司機睡著了

      火山詩話
      2026-02-26 10:07:44
      AI也嫌煩?一用戶讓元寶多次修圖后竟遭辱罵:你媽個X

      AI也嫌煩?一用戶讓元寶多次修圖后竟遭辱罵:你媽個X

      三言科技
      2026-02-24 19:31:12
      明星都心疼!演員王寧去杭州吃面,2188元一碗吃不起,老板戴金牌

      明星都心疼!演員王寧去杭州吃面,2188元一碗吃不起,老板戴金牌

      一娛三分地
      2026-02-25 18:20:47
      2026-02-26 14:23:00
      卡爾的AI沃茨 incentive-icons
      卡爾的AI沃茨
      前大廠算法工程師,3家科技公司技術總監|致力打造最系統的Al學習體系,讓1萬人通過Al提高生產力
      219文章數 101關注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達再次炸裂

      頭條要聞

      賴清德改口稱“大陸”被指釋出善意 國民黨發言人表態

      頭條要聞

      賴清德改口稱“大陸”被指釋出善意 國民黨發言人表態

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      尼格買提撒貝寧滑雪被偶遇 17年老友情

      財經要聞

      短劇市場風云突變!有人投百萬賠得精光

      汽車要聞

      第五代宏光MINIEV煥新 四門玩趣代步車來襲

      態度原創

      旅游
      時尚
      家居
      親子
      公開課

      旅游要聞

      水潤壽鄉 文旅煥新——眉山市彭山區擘畫現代化都市圈文旅融合新圖景

      倫敦時裝周|2026秋冬流行趨勢早知道

      家居要聞

      歸隱于都市 慢享自由

      親子要聞

      孩子兩歲學騎平衡車,奶奶卻說“沒用”,一年后孩子變化讓人驚喜

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版