聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
256K文本預加載提速超50%,還解鎖了1M上下文窗口。
美團龍貓LongCat系列新年出招,發布全新稀疏注意力機制LoZA(LongCat ZigZag Attention)
新技術集中火力,重點解決長文本任務的理解、算力難題。
![]()
相比于LongCat系列之前的全注意力MLA機制,LoZA只改了一半的核心模塊。
但模型長文本能力從256K擴展到1M,解碼速度還快了不少。
甚至比同類型的Qwen-3模型表現還要好。
接下來看具體方案。
如何做到 “只算關鍵部分” ?
全注意力機制的算力瓶頸在于平方級的計算復雜度O (L2),這導致模型在處理長文本任務時對顯卡要求高,還會出現推理延遲問題。
LoZA的核心思路是專注于處理重要的內容,不重要的部分少花力氣。
![]()
作為LongCat系列的核心技術升級,LoZA主要是在原來的MLA機制上做改造。
具體分兩步。
首先,給模型里的多頭潛在注意力模塊MLA做一個全局“篩查”,找出哪些模塊可以被改造。
在原來的MLA架構中,每個MLA模塊都是處理注意力的核心單元,現在的新方案是給每個模塊配一個可學習權重α。
α值越高,說明該模塊額全注意力計算越關鍵,一旦簡化就容易丟性能;α值越低就意味著模塊的可替代性強,即便換成更輕量的計算方式,對整體的理解能力影響也不大。
在訓練過程中,團隊凍結模型其他參數,只更新α的梯度,通過這種專門的校準訓練讓模型自主學習α值,然后按α值從小到大排序,找出那些稀疏化后不影響性能的MLA模塊,也就是后續的優化目標。
隨后,將找出的50%低性能模塊換成更輕巧的流式稀疏注意力SSA
這樣就形成了一種交錯結構,團隊將這種結構稱為ZigZag
SSA的計算復雜度是線性的O (L·S)(S為稀疏窗口大小,固定為1024Token),遠低于全注意力的O (L2)。
所以這種交錯結構讓模型既不會因為過度簡化而變笨,又能把計算復雜度降到線性級別,省不少算力。
![]()
為了讓模型在關注局部細節的基礎上不忽略整體邏輯,LoZA還設計了一個1024Token稀疏窗口
每個窗口里有1個負責抓整體關聯的“全局塊”和7個負責盯附近內容的“局部塊”,單塊大小為128Token。
這樣的改造也不需要從頭訓練,在中期訓練階段就能完成,成本也比較低。
從測試數據來看,LoZA的表現也不錯,主要是“更快”的同時“沒變笨”
速度上,要是處理128K上下文,解碼速度直接比原來快10倍;
256K上下文,模型預加載(讀文本過程)速度快了50%,后續解碼階段生成內容時還能省30%的算力,相當于同樣的硬件,現在能同時處理兩倍多的長文本任務。
這也讓LongCat-Flash-Exp解鎖了1M上下文窗口。
![]()
性能上,LoZA也沒因為簡化而縮水。
處理回答問題、寫代碼這類日常任務時,和原版LongCat-Flash持平;處理長文本任務時,表現反而更好。
![]()
比如在MRCR測試里,反超了同樣能處理1M長文本的Qwen-3模型,還更穩定。
![]()
接下來,團隊還計劃讓LoZA支持動態稀疏比例
短文本場景自動多用全注意力保證精度,長文本場景自動增加稀疏模塊提升效率,甚至適配多模態模型處理長視頻、長圖文內容。
好一個新年新氣象!
論文地址:https://www.alphaxiv.org/abs/2512.23966
— 完 —
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.