<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      唯快不破:上海AI Lab 82頁綜述帶你感受LLM高效架構的魅力

      0
      分享至



      作者:孫偉高上海人工智能實驗室

      近年來,大語言模型(LLMs)展現出強大的語言理解與生成能力,推動了文本生成、代碼生成、問答、翻譯等任務的突破。代表性模型如 GPT、Claude、Gemini、DeepSeek、Qwen 等,已經深刻改變了人機交互方式。LLMs 的邊界也不止于語言和簡單問答。隨著多模態(VLMs)與推理能力(LRMs)的興起,LLMs 正不斷擴展到多模態理解、生成與復雜推理場景。

      但模型性能持續提升的背后,是模型尺寸、數據規模、RL 推理長度的快速 Scaling,是算力和存儲資源的急劇消耗。大模型的訓練與推理的成本居高不下,成為制約其廣泛落地和應用的現實瓶頸。

      本文從 LLM 架構角度出發,帶你剖析大模型的效率秘訣。這一切的核心在于 Transformer 架構。Transformer 的自注意力機制雖帶來了遠距離建模的突破,卻因O(N2)的復雜度在長序列任務中成本高昂。而在 RAG、智能體、長鏈推理、多模態等新興場景下,長序列需求愈發突出,進一步放大了效率與性能之間的矛盾。同時 Transformer 的 FFN 部分采用密集的 MLP 層,同樣面臨模型規模放大后的訓練和推理效率問題。

      近年來針對 Transformer 架構改進的創新工作層出不窮,卻一直缺乏一篇全面深入的綜述文章進行總結。



      圖 1:常見長序列場景

      近期,上海 AI Lab聯合港科廣、澳門大學、中科院自動化所、蘇州大學、瑞典 KTH、北大、港中文等多家機構,總結 440 余篇相關論文,深入探討了當前LLM 高效結構的最新進展,形成這篇 82 頁的綜述論文:



      • 論文標題:Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
      • 論文地址:
      • https://arxiv.org/pdf/2508.09834
      • 項目倉庫:
      • https://github.com/weigao266/Awesome-Efficient-Arch



      圖 2:大語言模型高效架構概覽

      該綜述將目前 LLM 高效架構總結分類為以下 7 類:

      • 線性序列建模:降低注意力訓練和推理復雜度,無需 KV Cache 開銷。
      • 稀疏序列建模:通過稀疏化注意力矩陣,降低計算與顯存需求。
      • 高效全注意力:在保持完整注意力的前提下優化內存訪問與 KV 存儲。
      • 稀疏專家模型:通過條件激活部分專家,大幅提升模型容量而不增加等比例計算成本。
      • 混合模型架構:結合線性/稀疏序列建模與全注意力,兼顧效率與性能。
      • 擴散語言模型:利用非自回歸的擴散模型進行語言生成。
      • 其他模態應用:將這些高效架構應用于視覺、語音、多模態模型。

      這些方向的探索不僅關乎 LLM 的未來效率,也關乎如何在算力受限的條件下,持續推動 AI 走向更強的智能的關鍵選擇。綜述涉及的方法類別和代表性論文可見如下樹狀圖:



      圖 3:綜述完整組織架構

      線性序列建模

      線性序列建模是近年來研究相當火熱的一個方向,代表性工作像Mamba、Lighting Attention、RWKV、GLA、TTT 等在模型架構方向都引起過廣泛關注。我們將這類技術細分為以下幾個類別:

      • 線性注意力
      • 線性 RNN
      • 狀態空間模型
      • 測試時推理 RNN

      并且正如在多篇文獻里已經提出的,這些線性序列建模方法可以概括為統一建模的數學形式,并且能夠通過線性化過程將預訓練模型權重的 Softmax Attention 架構轉為 Linear Sequence Modeling 架構,從而獲得模型效率的大幅提升,如下圖所示。



      圖 4:線性序列建模方法

      我們將已有的線性序列建模方法從記憶視角和優化器視角分別進行梳理和對比,詳細形式可見下表:



      表 1:線性序列建模方法統一建模的 Memory 視角和 Optimizer 視角

      其中線性化技術可以進一步細分為基于微調的線性化,和基于蒸餾的線性化,如下圖所示:



      圖 5:線性化方法

      綜述還進一步總結歸納了目前在線性序列建模領域常見的硬件高效實現方法,可以歸納為 Blelloch Scan、Chunk-wise Parallel 和 Recurrent for Inferences,如下圖所示:



      圖 6:線性序列建模方法的硬件高效實現

      稀疏序列建模

      稀疏序列建模是另一類有代表性的高效注意力機制,通過利用 Attention Map 天然具有的稀疏性加速注意力的計算,這類方法可以進一步細分為:

      • 靜態稀疏注意力
      • 動態稀疏注意力
      • 免訓練稀疏注意力

      代表性的稀疏注意力方法如 Global Attention、Window Attention、Dilated Attention 等,及其工作原理如下圖所示:



      圖 7:稀疏注意力的幾種經典形式

      高效全注意力

      另一類高效注意力算法可以統一歸納為高效全注意力,這類方法可以根據算法思路進一步細分為如下幾類:

      • IO-Aware Attention
      • Grouped Attention
      • Mixture of Attention
      • Quantized Attention

      其中 IO-Aware Attention 指代目前使用非常廣泛的Flash Attention系列工作,Grouped Attention 則包含廣為使用的 GQA、MLA等全注意力變體,幾種代表性方法如下圖所示。



      圖 8:Grouped Attention 的幾種代表性方法

      稀疏混合專家

      稀疏混合專家是對 Transformer 架構中另一個重要模塊 FFN 做的一類重要改進,已經逐漸成為(語言和多模態)大模型架構的事實標準。綜述中將相關文獻按以下三個方向進行分類:

      • Routing Mechanisms
      • Expert Architectures
      • MoE Conversion

      路由機制包括 Token-choice 和 Expert-choice 兩類,其原理如下圖所示:



      圖 9:MoE 路由機制

      專家結構的創新工作包括:共享專家、細粒度專家、零專家、深度路由等,其作用和原理可見下圖:



      圖 10:MoE 專家架構

      另外一個重要的方向是 MoE 轉換,已有的工作包括通過 Split、Copy、Merge 等手段對專家進行構造,如下圖所示:



      圖 11:MoE 轉化機制

      混合架構

      混合架構是近年來出現的一種實用的新型架構,可以在線性/稀疏注意力和全注意力之間取得微妙的 Trade-off,也在效率和效果間找到了最佳甜蜜點。具體可細分為:

      • 層間混合
      • 層內混合



      圖 12:混合架構形式

      擴散大語言模型

      擴散大語言模型是近期出現的一個熱門方向,創新性地將擴散模型從視覺生成任務遷移至語言任務,從而在語言生成速度上取得大幅進步。相關工作可以細分為:

      • Non-Autoregressive Diffusion LLM
      • Bridging Diffusion LLM and Autoregressive
      • Extending Diffusion LLM to Multimodality



      圖 13:擴散大語言模型機制

      應用至其他模態

      最后一個重要的部分是高效架構在其他模態上的應用,涵蓋視覺、音頻和多模態。以 Mamba 為代表的線性模型被廣泛應用至多種模態任務上,并取得了優秀的表現,綜述將這類模型總結梳理至如下表格:



      寄語

      最后正如帝國時代 3 中這條神奇代碼「Speed Always Wins」能讓游戲世界「Increases build, research,shipment, and gather rates by 100 times for all players」一樣,我們希望綜述中的 Efficient Architectures 可以真被用來 100x 加速 AI 世界的構建,更快更便宜地訓練出更強更實用的大模型。請記住這條神奇代碼:「Speed Always Wins」

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      善惡終有報!移居英國僅2年,57歲吳秀波再迎噩耗,步李易峰后塵

      善惡終有報!移居英國僅2年,57歲吳秀波再迎噩耗,步李易峰后塵

      以茶帶書
      2025-12-17 17:06:56
      泰國定義柬埔寨園區為“犯罪團伙”,國人卻稱他們為“電詐人員”

      泰國定義柬埔寨園區為“犯罪團伙”,國人卻稱他們為“電詐人員”

      清書先生
      2025-12-17 17:32:36
      價格大跳水!暴跌30%,進口車跌落神壇,廣東“老錢車”銷量逆襲

      價格大跳水!暴跌30%,進口車跌落神壇,廣東“老錢車”銷量逆襲

      品牌觀察官
      2025-12-16 20:52:08
      破大防!荷蘭大臣向全世界承認:沒想到中方真的叫停芯片出口

      破大防!荷蘭大臣向全世界承認:沒想到中方真的叫停芯片出口

      歷史求知所
      2025-12-16 22:15:04
      副市長、市教育局局長、縣委書記、縣長等25人被處理

      副市長、市教育局局長、縣委書記、縣長等25人被處理

      南方都市報
      2025-12-17 19:50:20
      又見神秘力量!泰國軍隊士氣如虹,洪森的臭棋又來了

      又見神秘力量!泰國軍隊士氣如虹,洪森的臭棋又來了

      超級學爸蛋總
      2025-12-16 23:26:13
      “沒有人會對一捧土產生情感,直到自己親手壘起了一座”,廣州大學網紅教授發文懷念已故好友看哭全網;二人曾是大學室友,對方因公殉職

      “沒有人會對一捧土產生情感,直到自己親手壘起了一座”,廣州大學網紅教授發文懷念已故好友看哭全網;二人曾是大學室友,對方因公殉職

      極目新聞
      2025-12-17 20:51:53
      孔子國際和平獎,開了個丟死人的國際玩笑

      孔子國際和平獎,開了個丟死人的國際玩笑

      老范談史
      2025-12-17 12:45:22
      泰國打的不是柬埔寨,是臉

      泰國打的不是柬埔寨,是臉

      求實處
      2025-12-16 23:00:43
      沖突第八天!泰方拿下制空權后又封了泰國灣,洪森父子只無能狂怒

      沖突第八天!泰方拿下制空權后又封了泰國灣,洪森父子只無能狂怒

      科普100克克
      2025-12-15 12:45:29
      7.9元早餐套餐被嫌貴!蜜雪冰城工作人員回應

      7.9元早餐套餐被嫌貴!蜜雪冰城工作人員回應

      每日經濟新聞
      2025-12-15 22:37:06
      向太曝馬伊琍已再婚:當年文章過不了心理那關

      向太曝馬伊琍已再婚:當年文章過不了心理那關

      娛樂看阿敞
      2025-12-12 15:50:00
      28歲女教師結婚當天墜亡,疑似朋友圈遺言被逼婚;當地已關注到此事

      28歲女教師結婚當天墜亡,疑似朋友圈遺言被逼婚;當地已關注到此事

      大風新聞
      2025-12-17 13:12:04
      被兄弟"做局"奪走300億公司,坐牢10年的賭徒CEO出來了

      被兄弟"做局"奪走300億公司,坐牢10年的賭徒CEO出來了

      帥真商業
      2025-12-16 21:08:37
      手術室護士長王嬌被查,涉嫌嚴重違法!

      手術室護士長王嬌被查,涉嫌嚴重違法!

      醫脈圈
      2025-12-17 20:54:04
      跌慘了!從單價5.7萬跌至2.2萬抄底,南京某頭部板塊房價跳水…

      跌慘了!從單價5.7萬跌至2.2萬抄底,南京某頭部板塊房價跳水…

      火山詩話
      2025-12-17 18:50:24
      SpaceX據悉通知員工進入IPO前靜默期

      SpaceX據悉通知員工進入IPO前靜默期

      界面新聞
      2025-12-17 15:33:44
      哈佛大學驚人發現:世界上最健康長壽的運動,竟然簡單到一學就會

      哈佛大學驚人發現:世界上最健康長壽的運動,竟然簡單到一學就會

      原來仙女不講理
      2025-12-17 17:16:38
      炸裂!網傳老太太睡大女婿生了娃,偷換小女兒的兒子,致外孫丟失

      炸裂!網傳老太太睡大女婿生了娃,偷換小女兒的兒子,致外孫丟失

      社會醬
      2025-12-17 17:12:37
      日本議員曝光,高市早苗拋開事先準備的材料,強行輸出涉臺謬論

      日本議員曝光,高市早苗拋開事先準備的材料,強行輸出涉臺謬論

      合贊歷史
      2025-12-17 14:51:13
      2025-12-17 23:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11943文章數 142512關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      家居
      房產
      健康
      數碼
      軍事航空

      家居要聞

      溫馨獨棟 駝色與淺色碰撞

      房產要聞

      封關前夕!豪庭銘苑超前交付,敬呈海口生活新范本

      這些新療法,讓化療不再那么痛苦

      數碼要聞

      連續五年全國銷量第一 添可洗地機為何被稱一次性用品?

      軍事要聞

      最新現場:山東艦完成年度最后一次海上訓練

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 林芝县| 黑人av无码一区| 无码人妻aⅴ一区二区三区69岛| 久久久亚洲精品无码| 黑人大战中国av女叫惨了| 粗大猛烈进出高潮视频| 国产97在线 | 免费| 亚洲午夜理论片在线观看| 人与禽交av在线播放| 欧美高清第6页| 91人人操| 丁香婷婷中文字幕| 91视频在线看| 一区二区三区AV波多野结衣| 国产精品国产高清国产av| 成人无码一级A片在线| 亚洲综合伊人久久大杳蕉| 亚洲熟女VS国产对比| 临汾市| 人妻少妇久久中文字幕| 国产精品无码av无码| 国产亚洲精品综合99久久| 制服丝袜亚洲在线| 怀仁县| 国产精品免费无遮挡无码永久视频| 亚洲国精产品一二二线| 亚洲无av码一区二区三区| 国产精品久久久久野外| 欧美性xxxxx极品| 泗阳县| 中文字幕亚洲综合久久综合| 麻豆一区二区三区蜜桃免费| 精品无码久久久久久久久久| 午夜剧场黄色| 夜夜爽7777精品国产三级| 自拍偷拍国产| 明溪县| 精品国产av无码一区二区三区| 亚洲国产欧美日本视频| 97国产成人无码精品久久久| 屁屁影院国产第一页|