<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      唯快不破:上海AI Lab 82頁綜述帶你感受LLM高效架構的魅力

      0
      分享至



      作者:孫偉高上海人工智能實驗室

      近年來,大語言模型(LLMs)展現出強大的語言理解與生成能力,推動了文本生成、代碼生成、問答、翻譯等任務的突破。代表性模型如 GPT、Claude、Gemini、DeepSeek、Qwen 等,已經深刻改變了人機交互方式。LLMs 的邊界也不止于語言和簡單問答。隨著多模態(VLMs)與推理能力(LRMs)的興起,LLMs 正不斷擴展到多模態理解、生成與復雜推理場景。

      但模型性能持續提升的背后,是模型尺寸、數據規模、RL 推理長度的快速 Scaling,是算力和存儲資源的急劇消耗。大模型的訓練與推理的成本居高不下,成為制約其廣泛落地和應用的現實瓶頸。

      本文從 LLM 架構角度出發,帶你剖析大模型的效率秘訣。這一切的核心在于 Transformer 架構。Transformer 的自注意力機制雖帶來了遠距離建模的突破,卻因O(N2)的復雜度在長序列任務中成本高昂。而在 RAG、智能體、長鏈推理、多模態等新興場景下,長序列需求愈發突出,進一步放大了效率與性能之間的矛盾。同時 Transformer 的 FFN 部分采用密集的 MLP 層,同樣面臨模型規模放大后的訓練和推理效率問題。

      近年來針對 Transformer 架構改進的創新工作層出不窮,卻一直缺乏一篇全面深入的綜述文章進行總結。



      圖 1:常見長序列場景

      近期,上海 AI Lab聯合港科廣、澳門大學、中科院自動化所、蘇州大學、瑞典 KTH、北大、港中文等多家機構,總結 440 余篇相關論文,深入探討了當前LLM 高效結構的最新進展,形成這篇 82 頁的綜述論文:



      • 論文標題:Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
      • 論文地址:
      • https://arxiv.org/pdf/2508.09834
      • 項目倉庫:
      • https://github.com/weigao266/Awesome-Efficient-Arch



      圖 2:大語言模型高效架構概覽

      該綜述將目前 LLM 高效架構總結分類為以下 7 類:

      • 線性序列建模:降低注意力訓練和推理復雜度,無需 KV Cache 開銷。
      • 稀疏序列建模:通過稀疏化注意力矩陣,降低計算與顯存需求。
      • 高效全注意力:在保持完整注意力的前提下優化內存訪問與 KV 存儲。
      • 稀疏專家模型:通過條件激活部分專家,大幅提升模型容量而不增加等比例計算成本。
      • 混合模型架構:結合線性/稀疏序列建模與全注意力,兼顧效率與性能。
      • 擴散語言模型:利用非自回歸的擴散模型進行語言生成。
      • 其他模態應用:將這些高效架構應用于視覺、語音、多模態模型。

      這些方向的探索不僅關乎 LLM 的未來效率,也關乎如何在算力受限的條件下,持續推動 AI 走向更強的智能的關鍵選擇。綜述涉及的方法類別和代表性論文可見如下樹狀圖:



      圖 3:綜述完整組織架構

      線性序列建模

      線性序列建模是近年來研究相當火熱的一個方向,代表性工作像Mamba、Lighting Attention、RWKV、GLA、TTT 等在模型架構方向都引起過廣泛關注。我們將這類技術細分為以下幾個類別:

      • 線性注意力
      • 線性 RNN
      • 狀態空間模型
      • 測試時推理 RNN

      并且正如在多篇文獻里已經提出的,這些線性序列建模方法可以概括為統一建模的數學形式,并且能夠通過線性化過程將預訓練模型權重的 Softmax Attention 架構轉為 Linear Sequence Modeling 架構,從而獲得模型效率的大幅提升,如下圖所示。



      圖 4:線性序列建模方法

      我們將已有的線性序列建模方法從記憶視角和優化器視角分別進行梳理和對比,詳細形式可見下表:



      表 1:線性序列建模方法統一建模的 Memory 視角和 Optimizer 視角

      其中線性化技術可以進一步細分為基于微調的線性化,和基于蒸餾的線性化,如下圖所示:



      圖 5:線性化方法

      綜述還進一步總結歸納了目前在線性序列建模領域常見的硬件高效實現方法,可以歸納為 Blelloch Scan、Chunk-wise Parallel 和 Recurrent for Inferences,如下圖所示:



      圖 6:線性序列建模方法的硬件高效實現

      稀疏序列建模

      稀疏序列建模是另一類有代表性的高效注意力機制,通過利用 Attention Map 天然具有的稀疏性加速注意力的計算,這類方法可以進一步細分為:

      • 靜態稀疏注意力
      • 動態稀疏注意力
      • 免訓練稀疏注意力

      代表性的稀疏注意力方法如 Global Attention、Window Attention、Dilated Attention 等,及其工作原理如下圖所示:



      圖 7:稀疏注意力的幾種經典形式

      高效全注意力

      另一類高效注意力算法可以統一歸納為高效全注意力,這類方法可以根據算法思路進一步細分為如下幾類:

      • IO-Aware Attention
      • Grouped Attention
      • Mixture of Attention
      • Quantized Attention

      其中 IO-Aware Attention 指代目前使用非常廣泛的Flash Attention系列工作,Grouped Attention 則包含廣為使用的 GQA、MLA等全注意力變體,幾種代表性方法如下圖所示。



      圖 8:Grouped Attention 的幾種代表性方法

      稀疏混合專家

      稀疏混合專家是對 Transformer 架構中另一個重要模塊 FFN 做的一類重要改進,已經逐漸成為(語言和多模態)大模型架構的事實標準。綜述中將相關文獻按以下三個方向進行分類:

      • Routing Mechanisms
      • Expert Architectures
      • MoE Conversion

      路由機制包括 Token-choice 和 Expert-choice 兩類,其原理如下圖所示:



      圖 9:MoE 路由機制

      專家結構的創新工作包括:共享專家、細粒度專家、零專家、深度路由等,其作用和原理可見下圖:



      圖 10:MoE 專家架構

      另外一個重要的方向是 MoE 轉換,已有的工作包括通過 Split、Copy、Merge 等手段對專家進行構造,如下圖所示:



      圖 11:MoE 轉化機制

      混合架構

      混合架構是近年來出現的一種實用的新型架構,可以在線性/稀疏注意力和全注意力之間取得微妙的 Trade-off,也在效率和效果間找到了最佳甜蜜點。具體可細分為:

      • 層間混合
      • 層內混合



      圖 12:混合架構形式

      擴散大語言模型

      擴散大語言模型是近期出現的一個熱門方向,創新性地將擴散模型從視覺生成任務遷移至語言任務,從而在語言生成速度上取得大幅進步。相關工作可以細分為:

      • Non-Autoregressive Diffusion LLM
      • Bridging Diffusion LLM and Autoregressive
      • Extending Diffusion LLM to Multimodality



      圖 13:擴散大語言模型機制

      應用至其他模態

      最后一個重要的部分是高效架構在其他模態上的應用,涵蓋視覺、音頻和多模態。以 Mamba 為代表的線性模型被廣泛應用至多種模態任務上,并取得了優秀的表現,綜述將這類模型總結梳理至如下表格:



      寄語

      最后正如帝國時代 3 中這條神奇代碼「Speed Always Wins」能讓游戲世界「Increases build, research,shipment, and gather rates by 100 times for all players」一樣,我們希望綜述中的 Efficient Architectures 可以真被用來 100x 加速 AI 世界的構建,更快更便宜地訓練出更強更實用的大模型。請記住這條神奇代碼:「Speed Always Wins」

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      蔡磊近照曝光:紅光滿面、妻兒和睦,48歲本命年他能跑贏死神嗎?

      蔡磊近照曝光:紅光滿面、妻兒和睦,48歲本命年他能跑贏死神嗎?

      削桐作琴
      2026-02-20 23:29:01
      江蘇男子帶著一家人去俄羅斯旅游,結果老婆孩子葬身貝加爾湖

      江蘇男子帶著一家人去俄羅斯旅游,結果老婆孩子葬身貝加爾湖

      霹靂炮
      2026-02-22 22:56:18
      《鏢人》陳麗君、李云霄火了,霄君cp再續友情,兩人都無公開戀情

      《鏢人》陳麗君、李云霄火了,霄君cp再續友情,兩人都無公開戀情

      芬霏劇時光
      2026-02-23 18:08:54
      谷愛凌奪冠后得知奶奶去世,稱昨晚還夢到了奶奶

      谷愛凌奪冠后得知奶奶去世,稱昨晚還夢到了奶奶

      懂球帝
      2026-02-22 22:05:10
      媽祖開始懲罰這位姓許的有錢人了

      媽祖開始懲罰這位姓許的有錢人了

      麥杰遜
      2026-02-21 18:12:33
      任何一艘美航母上,都要帶足大量女兵?她們在航母上有什么作用?

      任何一艘美航母上,都要帶足大量女兵?她們在航母上有什么作用?

      來科點譜
      2026-02-23 09:27:06
      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      深度報
      2025-12-14 22:36:54
      大年初六,和幾個大廠(字節、阿里)朋友聚會。突然不聊房子了

      大年初六,和幾個大廠(字節、阿里)朋友聚會。突然不聊房子了

      螞蟻大喇叭
      2026-02-23 17:08:47
      日本首相退休后,每月的養老金是多少

      日本首相退休后,每月的養老金是多少

      徐靜波靜說日本
      2025-12-06 09:15:21
      75歲老人全新養老方式:不請保姆不去養老院,成本小老人舒心

      75歲老人全新養老方式:不請保姆不去養老院,成本小老人舒心

      孢木情感
      2026-02-21 12:15:25
      21+9難救主,馬瑟林懊惱絕殺不中:倫納德的話讓我備受鼓舞

      21+9難救主,馬瑟林懊惱絕殺不中:倫納德的話讓我備受鼓舞

      大眼瞄世界
      2026-02-23 16:12:04
      一個家庭最大的災難不是貧窮,而是父母才50歲,就處于這種狀態

      一個家庭最大的災難不是貧窮,而是父母才50歲,就處于這種狀態

      真實人物采訪
      2025-12-02 17:00:03
      比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

      比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

      芳芳歷史燴
      2025-12-25 20:32:52
      閃電航打包出售ipad,全都是蘋果牌

      閃電航打包出售ipad,全都是蘋果牌

      中國民航人
      2026-02-20 19:54:05
      1957年,韓先楚拒絕當福州軍區司令員,毛主席震怒:你不去也得去

      1957年,韓先楚拒絕當福州軍區司令員,毛主席震怒:你不去也得去

      南書房
      2026-02-22 07:25:13
      中產的智能馬桶,我不敢坐

      中產的智能馬桶,我不敢坐

      有意思報告
      2026-02-23 08:42:19
      信號與噪音:俄烏戰爭爆發前夕,那些不為人知的幕后故事

      信號與噪音:俄烏戰爭爆發前夕,那些不為人知的幕后故事

      近距離
      2026-02-22 12:49:16
      孫越訪談坦白:和岳云鵬私下不怎么聯系,成就如今的“德云一哥”

      孫越訪談坦白:和岳云鵬私下不怎么聯系,成就如今的“德云一哥”

      離離言幾許
      2026-02-21 09:26:48
      寧忠巖:拿到三枚獎牌完全超出預期,賽前目標有一枚就很好了

      寧忠巖:拿到三枚獎牌完全超出預期,賽前目標有一枚就很好了

      懂球帝
      2026-02-23 14:00:06
      馬筱梅曬設計款紅包,汪小菲帶隊外出聚餐,小菻菻顯得格外親張蘭

      馬筱梅曬設計款紅包,汪小菲帶隊外出聚餐,小菻菻顯得格外親張蘭

      心靈得以滋養
      2026-02-23 14:28:05
      2026-02-23 18:40:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12326文章數 142569關注度
      往期回顧 全部

      科技要聞

      智譜、MiniMax合計蒸發近千億市值,為何?

      頭條要聞

      鄭麗文:一旦臺海爆發沖突 臺灣將成最大輸家

      頭條要聞

      鄭麗文:一旦臺海爆發沖突 臺灣將成最大輸家

      體育要聞

      哈登版騎士首敗:雷霆的冠軍課

      娛樂要聞

      谷愛凌奶奶去世,谷愛凌淚奔

      財經要聞

      美國海關將停止征收被裁定違法的關稅

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      家居
      本地
      時尚
      手機
      公開課

      家居要聞

      本真棲居 愛暖伴流年

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      今年春天一定要擁有的針織,這樣穿減齡又好看!

      手機要聞

      榮耀MWC 2026全球發布會定檔3月1日

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版