![]()
LLM領域,線性注意力機制正在回歸,工程實踐主要還是國產模型在推進,主要原因大家都清楚,我們算力有限,當然也有長期的目標,Agent要真正落地干貨,注意力機制必須要改變,目前國外主要模型都是閉源的,技術細節我們不了解,看起來都是仗著有卡,暴力解算,以下是這場技術路線之爭的簡要梳理
早期:效率與精度的兩難
線性注意力并非新技術。早在2020年代,相關論文就已大量涌現。
其核心目標是將注意力機制的時間和內存復雜度從O(n2)降低到O(n),從而在處理長序列時實現更高的效率。
然而,這些早期的嘗試從未真正獲得主流認可。根本原因在于,它們以犧牲模型精度為代價,因此從未被應用在任何一個開源的、達到業界頂尖水平(SOTA)的大語言模型中。
新的浪潮:國產模型引領
轉折點發生在今年下半年,線性注意力變體迎來了一輪復興
6月,MiniMax-M1:擁有4560億總參數、460億激活參數的MoE模型,采用了“閃電注意力”(lightning attention)
8月,Qwen3-Next:由Qwen3團隊推出,采用了線性注意力變體
9月,DeepSeek V3.2:由DeepSeek團隊發布,采用了稀疏注意力(sparse attention),雖然并非嚴格的線性,但仍是亞二次方復雜度
這三個模型的共同點是,在大部分或所有層中,都用高效的線性或亞二次方注意力變體取代了傳統的二次方注意力
劇情反轉:MiniMax悄然“倒戈”
就在線性注意力看似前景大好之時,劇情出現了反轉。
MiniMax團隊發布了其新的2300億參數模型M2,但出人意料地放棄了線性注意力,回歸了常規注意力機制
團隊給出的解釋是,線性注意力在生產環境的LLM中非常棘手。雖然它在處理常規提示時表現尚可,但在推理和多輪對話任務中存在明顯的精度問題——而這兩項能力對于聊天會話和智能體應用至關重要
這一舉動一度讓外界認為,線性注意力的探索或許不值得再繼續下去
Kimi入局:混合策略帶來新解法
然而,上周,Kimi團隊發布了其全新的Kimi Linear模型,再次將線性注意力拉回舞臺中央。
官方數據顯示,與常規的全注意力(full attention)相比,Kimi Linear實現了:
75%的KV緩存縮減
最高達6倍的解碼吞吐量
在架構上,Kimi Linear與Qwen3-Next有諸多相似之處,兩者都依賴于一種混合注意力策略。
具體來說,它們都將輕量級的線性注意力與重量級的全注意力層結合使用。兩者的比例均為3:1,即每三個采用線性注意力(Gated DeltaNet變體)的Transformer塊,就搭配一個使用全注意力的塊
但Kimi Linear在此基礎上進行了改進:
1.線性部分:采用了Kimi Delta Attention (KDA)機制,這是對Gated DeltaNet的精煉,關于KDA解讀可以看我之前的文章
2.全注意力部分:用多頭潛在注意力(multi-head latent attention, MLA)取代了標準的全注意力模塊
雖然Kimi Linear的論文中沒有與Qwen3-Next的直接比較,但與Gated DeltaNet論文中的Gated DeltaNet-H1模型(本質上是Gated DeltaNet與滑動窗口注意力的結合)相比,Kimi Linear在保持相同token生成速度的同時,實現了更高的建模精度
需要的注意的目前Kimi Linear中的多頭潛在注意力(MLA)尚未整合輸出門(sigmoid bypass),但團隊計劃在未來加入這一特性
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.