![]()
作者:孫偉高上海人工智能實驗室
近年來,大語言模型(LLMs)展現出強大的語言理解與生成能力,推動了文本生成、代碼生成、問答、翻譯等任務的突破。代表性模型如 GPT、Claude、Gemini、DeepSeek、Qwen 等,已經深刻改變了人機交互方式。LLMs 的邊界也不止于語言和簡單問答。隨著多模態(VLMs)與推理能力(LRMs)的興起,LLMs 正不斷擴展到多模態理解、生成與復雜推理場景。
但模型性能持續提升的背后,是模型尺寸、數據規模、RL 推理長度的快速 Scaling,是算力和存儲資源的急劇消耗。大模型的訓練與推理的成本居高不下,成為制約其廣泛落地和應用的現實瓶頸。
本文從 LLM 架構角度出發,帶你剖析大模型的效率秘訣。這一切的核心在于 Transformer 架構。Transformer 的自注意力機制雖帶來了遠距離建模的突破,卻因O(N2)的復雜度在長序列任務中成本高昂。而在 RAG、智能體、長鏈推理、多模態等新興場景下,長序列需求愈發突出,進一步放大了效率與性能之間的矛盾。同時 Transformer 的 FFN 部分采用密集的 MLP 層,同樣面臨模型規模放大后的訓練和推理效率問題。
近年來針對 Transformer 架構改進的創新工作層出不窮,卻一直缺乏一篇全面深入的綜述文章進行總結。
![]()
圖 1:常見長序列場景
近期,上海 AI Lab聯合港科廣、澳門大學、中科院自動化所、蘇州大學、瑞典 KTH、北大、港中文等多家機構,總結 440 余篇相關論文,深入探討了當前LLM 高效結構的最新進展,形成這篇 82 頁的綜述論文:
![]()
- 論文標題:Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
- 論文地址:
- https://arxiv.org/pdf/2508.09834
- 項目倉庫:
- https://github.com/weigao266/Awesome-Efficient-Arch
![]()
圖 2:大語言模型高效架構概覽
該綜述將目前 LLM 高效架構總結分類為以下 7 類:
- 線性序列建模:降低注意力訓練和推理復雜度,無需 KV Cache 開銷。
- 稀疏序列建模:通過稀疏化注意力矩陣,降低計算與顯存需求。
- 高效全注意力:在保持完整注意力的前提下優化內存訪問與 KV 存儲。
- 稀疏專家模型:通過條件激活部分專家,大幅提升模型容量而不增加等比例計算成本。
- 混合模型架構:結合線性/稀疏序列建模與全注意力,兼顧效率與性能。
- 擴散語言模型:利用非自回歸的擴散模型進行語言生成。
- 其他模態應用:將這些高效架構應用于視覺、語音、多模態模型。
這些方向的探索不僅關乎 LLM 的未來效率,也關乎如何在算力受限的條件下,持續推動 AI 走向更強的智能的關鍵選擇。綜述涉及的方法類別和代表性論文可見如下樹狀圖:
![]()
圖 3:綜述完整組織架構
線性序列建模
線性序列建模是近年來研究相當火熱的一個方向,代表性工作像Mamba、Lighting Attention、RWKV、GLA、TTT 等在模型架構方向都引起過廣泛關注。我們將這類技術細分為以下幾個類別:
- 線性注意力
- 線性 RNN
- 狀態空間模型
- 測試時推理 RNN
并且正如在多篇文獻里已經提出的,這些線性序列建模方法可以概括為統一建模的數學形式,并且能夠通過線性化過程將預訓練模型權重的 Softmax Attention 架構轉為 Linear Sequence Modeling 架構,從而獲得模型效率的大幅提升,如下圖所示。
![]()
圖 4:線性序列建模方法
我們將已有的線性序列建模方法從記憶視角和優化器視角分別進行梳理和對比,詳細形式可見下表:
![]()
表 1:線性序列建模方法統一建模的 Memory 視角和 Optimizer 視角
其中線性化技術可以進一步細分為基于微調的線性化,和基于蒸餾的線性化,如下圖所示:
![]()
圖 5:線性化方法
綜述還進一步總結歸納了目前在線性序列建模領域常見的硬件高效實現方法,可以歸納為 Blelloch Scan、Chunk-wise Parallel 和 Recurrent for Inferences,如下圖所示:
![]()
圖 6:線性序列建模方法的硬件高效實現
稀疏序列建模
稀疏序列建模是另一類有代表性的高效注意力機制,通過利用 Attention Map 天然具有的稀疏性加速注意力的計算,這類方法可以進一步細分為:
- 靜態稀疏注意力
- 動態稀疏注意力
- 免訓練稀疏注意力
代表性的稀疏注意力方法如 Global Attention、Window Attention、Dilated Attention 等,及其工作原理如下圖所示:
![]()
圖 7:稀疏注意力的幾種經典形式
高效全注意力
另一類高效注意力算法可以統一歸納為高效全注意力,這類方法可以根據算法思路進一步細分為如下幾類:
- IO-Aware Attention
- Grouped Attention
- Mixture of Attention
- Quantized Attention
其中 IO-Aware Attention 指代目前使用非常廣泛的Flash Attention系列工作,Grouped Attention 則包含廣為使用的 GQA、MLA等全注意力變體,幾種代表性方法如下圖所示。
![]()
圖 8:Grouped Attention 的幾種代表性方法
稀疏混合專家
稀疏混合專家是對 Transformer 架構中另一個重要模塊 FFN 做的一類重要改進,已經逐漸成為(語言和多模態)大模型架構的事實標準。綜述中將相關文獻按以下三個方向進行分類:
- Routing Mechanisms
- Expert Architectures
- MoE Conversion
路由機制包括 Token-choice 和 Expert-choice 兩類,其原理如下圖所示:
![]()
圖 9:MoE 路由機制
專家結構的創新工作包括:共享專家、細粒度專家、零專家、深度路由等,其作用和原理可見下圖:
![]()
圖 10:MoE 專家架構
另外一個重要的方向是 MoE 轉換,已有的工作包括通過 Split、Copy、Merge 等手段對專家進行構造,如下圖所示:
![]()
圖 11:MoE 轉化機制
混合架構
混合架構是近年來出現的一種實用的新型架構,可以在線性/稀疏注意力和全注意力之間取得微妙的 Trade-off,也在效率和效果間找到了最佳甜蜜點。具體可細分為:
- 層間混合
- 層內混合
![]()
圖 12:混合架構形式
擴散大語言模型
擴散大語言模型是近期出現的一個熱門方向,創新性地將擴散模型從視覺生成任務遷移至語言任務,從而在語言生成速度上取得大幅進步。相關工作可以細分為:
- Non-Autoregressive Diffusion LLM
- Bridging Diffusion LLM and Autoregressive
- Extending Diffusion LLM to Multimodality
![]()
圖 13:擴散大語言模型機制
應用至其他模態
最后一個重要的部分是高效架構在其他模態上的應用,涵蓋視覺、音頻和多模態。以 Mamba 為代表的線性模型被廣泛應用至多種模態任務上,并取得了優秀的表現,綜述將這類模型總結梳理至如下表格:
![]()
寄語
最后正如帝國時代 3 中這條神奇代碼「Speed Always Wins」能讓游戲世界「Increases build, research,shipment, and gather rates by 100 times for all players」一樣,我們希望綜述中的 Efficient Architectures 可以真被用來 100x 加速 AI 世界的構建,更快更便宜地訓練出更強更實用的大模型。請記住這條神奇代碼:「Speed Always Wins」
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.