<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型架構的下半場

      0
      分享至

      華中科技大學王興剛團隊 投稿
      量子位 | 公眾號 QbitAI

      研究者們花了十年去擴展層內的計算能力,卻忘了擴展層間的通信能力。

      這件事亟需被改變。



      過去十年,深度學習領域取得進展的方式出奇地一致:什么都往大了整。更多參數、更多數據、更長上下文。而且確實管用:loss在降,能力在漲,scaling law(擴展定律)精確地告訴研究團隊還需要投入多少。

      但擴展的方向不同,差異也是巨大的。序列長度的擴展需要真正的創新,也確實催生了一整套機制研究和系統工程。數據的擴展則直截了當:數據越多,loss越低。讓模型變得更寬、更深,這看起來也和數據的擴展一樣簡單。

      但寬度和深度真的在同等地發揮作用嗎?

      并非如此。深度在數量上增長了,但在質量上卻沒有。層與層之間的通信機制幾乎沒有變化。接下來本文將解釋這一點為什么重要,這不僅關乎網絡的深度本身,更關于研究團隊設計神經網絡架構時的一個集體盲區。

      上半場

      要看清上半場做對了什么,就看看什么被成功地擴展了,以及是怎么做到的

      先看序列長度。早期Transformer只能處理幾百個token。要達到128K+,需要多個方向上的持續創新:新的注意力模式(稀疏、線性、混合)、系統工程(FlashAttention)、位置編碼的進步(RoPE scaling)。研究者和工程師們共同建造了一整個生態,持續改進token之間的通信方式。而回報頗豐,研究團隊不止能夠處理極其長的文檔,還為OpenAI-O1和DeepSeek-R1的長鏈推理奠定了堅實的基礎。這就是當研究團隊認真投資于“信息在序列維度上的流動方式時”,所收獲的斐然成果。



      △現代LLM中的參數與數據規模迅速增長

      參數和數據的擴展是最符合人類直覺的部分。從深度學習的最早期開始,每本教科書都在教授同一套配方:更多數據、更寬的層、更深的網絡,自然帶來更好的表征。從GPT-2的15億參數到如今的數萬億,這套配方一直管用。這似乎說明大模型團隊不需要引入新機制,只需要持續拓展這些被驗證了的方向。

      只不過,對網絡而言,更寬更深往往并不是一回事。寬度的擴展是自然而然的:現代GPU天生擅長處理更寬的矩陣乘法,注意力機制的演進越來越高效,這使得更寬的網絡可以無縫接入現有架構。

      而深度則是另一個故事。模型確實變深了:研究團隊將模型加到32層、64層、甚至100層以上。但層間通信的機制本質上還是ResNet在2015年引入的深度殘差,“x + F(x)”。自它誕生以來,圍繞它有過不少改良(歸一化位置、殘差縮放、跨層連接),但沒有任何改良真正取代過那個深度殘差中“+”的決定性地位。

      殘差連接可以說是深度學習中最重要的基石。沒有它,就沒有100層的Transformer,沒有現代LLM,沒有scaling law。但基礎性方案有一個特點:它們有時會變得太過隱形,以至于沒人再去質疑它到底是最優解,還是僅僅是研究團隊探索出的第一個能用的方案。

      打個比方,想象一個有特殊規則的傳話游戲。在標準版本里,第1個人對第2個人耳語,第2個人再對第3個人耳語。到第18個人的時候,消息已經面目全非了。這就是沒有殘差連接的深層網絡:每一層只能看到上一層的輸出。

      殘差連接修復了這個問題:每個人在傳達自己的理解的同時,也把之前積累的原始信息原封不動地往下傳。第3個人既能聽到第2個人的新解讀,也能聽到之前的所有內容。原始信號始終被保留,它成為了不斷壯大的合唱中的一個聲部。

      但到了第152個人,你同時在聽152個聲音:原始信息加上151層疊加上去的內容,全部混在一句耳語里。理論上,前面那些人的聲音依然存在,但它們已經被淹沒了。如果第152個人需要知道第3個人具體說了什么,他得費力地從這首宏大的合唱聲中把它挑出來。



      △消息累加的傳話游戲中,靠后的人依然難以分辨出所需的內容

      通常而言,第152個人是做不到這一點的。

      這就是信息稀釋。每一層都面臨兩難:倘若該層貢獻新信息就可能會掩蓋之前的內容,但保守不動則能保留之前層傳過來的已有信息。這種狀況下,很多層學會了保守不動,它們幾乎不往殘差流里寫入任何東西。這樣的深度網絡在紙面上很深,實際上卻很淺。研究團隊堆了152層,但其中很多層卻只學會了保持沉默。

      這里的瓶頸不在于152層網絡所需求的算力,而在于信息穿過這些層的通信能力。CPU的發展在幾十年前就撞過同樣的墻:處理器越來越快,直到內存帶寬跟不上了,逼得整個行業轉向緩存和通信。組織管理也一樣:一群聰明人所能發揮出的創造力,也受限于他們之間的溝通、組織方式。深度學習正在經歷自己的版本:十年來不斷增強每一層的能力,而層與層之間的通道始終是2015年那條單車道公路。

      那么,有沒有更好的機制?

      配方

      在本文所介紹的研究之前已經有很多研究者注意到了深度瓶頸。多年來,修補方案越來越巧妙:獲評CVPR best paper的DenseNet保留了每一層的輸出,但代價是平方級的開銷。使用可學習加權的方案DenseFormer、LIMe降低了成本,但訓練完成后權重就固定了,每個token、每套上下文都用同樣的權重。

      字節跳動的Hyper-Connections和DeepSeek的mHC另辟蹊徑,它們把管道拓寬到N個通道,層間用混合矩陣連接,這相當于信息高速公路上同時多了好幾條車道。但壞消息是,信息仍然在逐層流動,第152層沒有辦法直接回溯到第3層。

      彩云公司的MUDDFormer讓混合每層輸出這件事變成動態的,它會根據每個token的表征來生成權重。這在根本方向上是對的:從每一層汲取多少信息本就應該取決于你正在處理的內容。但同樣有個壞消息,第152層在決定從第3層汲取多少時,只依賴第152層本身的狀態,它并不知道第3層實際包含了什么。它是在預測哪些層有用,而不是在查看

      以上的每一步都修復了一個真實存在的缺陷,但卻鮮有哪一個方法質疑過深度殘差的框架本身。

      不難發現,這些方法都有著一個共同點。從DenseNet到Hyper-Connections,每個方法都在回答同一個隱含的問題:“如何才能更好地混合各層的輸出?”更好的系數,更多的通道,自適應的權重。但自始至終都是混合,自始至終都是累加。ELMo早就表明,不同的層編碼的是截然不同的信息:淺層編碼句法,深層編碼語義。所有人得出的結論都是“學習更好的混合權重用來平衡句法語義”。但還有一條被主流忽視的道路:如果不同層持有不同信息,也許每一層應該能夠根據內容而非位置,從持有所需信息的那一層直接檢索

      這就是范疇謬誤:把層間通信當作累加(用學習到的或生成的系數來組合信號)而非檢索(通過基于內容的匹配來選擇信息)。在累加框架下,即使是動態方法也只從當前層的狀態生成混合權重,而不去查看信息的來源層實際包含了什么。在檢索框架下,Query(查詢)編碼的是“我需要什么”,Key(鍵)編碼的是“我有什么”,而它們之間的運算決定了相關性。Query和Key雙方都應該有發言權。

      回到傳話游戲。之前所有的方法都在試圖產生一個更清晰的合唱:更好的發音、更多的中繼通道、自適應的音量。沒有一個質疑過這個根本約束:所有聲音必須累加成一個聲音嗎?也沒有人問過:咱是否可以直接走回去,跟之前的任何一個人當面對話呢?

      研究團隊認為這種范疇謬誤在架構設計中無處不在。當某個東西足夠好用的時候,你不會去質疑它的概念框架,而只會在框架內改進。經歷了多年越來越巧妙的修補之后,研究者才明白:深度維度的殘差連接需要的不是更好的系數,而是被一種根本不同的操作所替代:

      一種在序列維度上已經成功解決了同樣問題的操作。



      △ 因果注意力機制在序列維度(橫向)上聚合信息

      下半場

      一旦研究團隊把層間的通信理解為檢索而非累加,一個很自然的答案就是在深度維度上引入注意力機制。包括研究者團隊在內的很多團隊都獨立地收斂到了這個想法:谷歌提出的 DCA、華為的MRLA、Hessian.AI的 Dreamer、Kimi的AttnRes、以及研究者團隊提出的Flash Depth Attention & MoDA,大家都嘗試在層間應用點積注意力。這種獨立趨同本身就是一個信號:方向走對了!



      △ 深度注意力機制在深度維度(縱向)上聚合信息

      但找對方向和做出成品是兩回事。研究者自述:“第一次用Pytorch實現運行深度注意力的時候,前向和反向傳播共計耗時達到了44,924 ms。44秒啊!朋友們!這個時間都夠我喝完一瓶500毫升的冰紅茶了!”
      也就是說,在深度維度上應用注意力機制的想法本身沒問題,但工程現實卻殘酷到了極點。現代GPU為大規模的矩陣乘法做了大量優化,卻不擅長數千個跨深度的極小規模的注意力操作。深度注意力作為一個計算量不大的算法,跑起來卻可能慢得要命。



      △Pytorch實現的深度注意力(DepthRef)很慢;Flash Depth Attention(FDA)很快。

      至此,之前的方法都陷入了兩難:要么簡化深度注意力來換速度,這種方式丟掉了完整的選擇性檢索這一核心價值;要么保持完整的表達能力,但運算代價變得不可接受。研究者團隊找到了一條出路:不是簡化算法,而是重新組織參與計算的數據布局,從而適配GPU硬件。Flash Depth Attention
      https://github.com/hustvl/MoDA)讓具備完整表達能力的深度檢索快到可以參與實際訓練。



      △混合深度注意力機制同時在序列維度(橫向)和深度維度(縱向)上聚合信息

      常規的大模型主干流水線是:殘差連接→序列注意力→殘差連接→FFN(前饋網絡)。

      有了高效的深度檢索之后,研究團隊注意到網絡的主干流水線變成了:深度注意力→序列注意力→深度注意力→FFN(前饋網絡)。這三個連續的注意力操作作用于不同的Key(鍵,縮寫作K)和Value(值,縮寫作V),卻共享著近乎相同的Query(查詢)。一個很自然的做法就是把它們融合。

      研究者團隊提出了混合深度注意力(Mixture-of-depths Attention,MoDA)將深度檢索和序列檢索合并到一個統一的softmax中。每個注意力頭同時關注當前層的序列KV對(鍵值對)和所有前序層的深度KV對(鍵值對)。在同一個softmax 下,模型可以自由決定何時關注序列中的其他token,何時跨層檢索自身的歷史信息。通過一次操作,MoDA完成了兩個維度的檢索。



      △左側區域是序列KV,右側區域是深度KV。顏色越黃,注意力越強。

      回到傳話游戲。在殘差連接的版本里,第152個人費力地從累加的合唱中辨認第3個人的聲音。有了深度檢索,第152個人拍拍第3個人的肩膀直接問:“你剛才說了什么?”沒有中間人,沒有累積的噪音。

      可視化的實驗結果也印證了這個類比所預測的現象:當模型獲得了通過深度KV從特定層進行選擇性檢索的能力時,它會持續且主動地使用這種能力。之前困擾模型架構研究員們的Attention Sink(注意力沉沒)現象,即模型把概率質量堆積在少數固定token上的行為,也隨之減弱。這就是當研究者團隊嘗試發展層之間而非僅僅層之內的信息流動時,所取得的有趣成果。



      △引入深度注意力后,傳話游戲允許每個人用手機查看群聊記錄。

      大模型架構的上半場是關于擴展組件的。研究者們擴展出更長的序列,更多的數據,更大的模型。這個階段最關鍵的問題是“怎么把一切都做大?”。在上半場,這是正確且關鍵的問題,它把整個領域從GPT-2帶到了GPT-4時代。下半場是關于擴展通信的。新的問題是:“組件之間的通信質量如何?



      △引入混合深度注意力后,在主流的開源基線(OLMo2)上全面提升了模型能力。

      深度是最明顯的例子,因為現有方案(累加)和可能的方案(選擇性檢索)之間的差距是巨大的。研究者團隊相信這個原則是可以推廣的。凡是神經網絡使用靜態的、與數據無關的通道來傳遞信息的地方,包括層與層之間、模態與模態之間、時間步與時間步之間等等,很可能都會有一個檢索機制等著替代那個累加操作。

      全世界的研究者們花了十年掌握token之間如何對話,現在是時候掌握層與層之間如何對話了。而最終,研究者們將掌握神經網絡中每個組件如何與其他任意組件對話。

      深度殘差的“+”帶我們跑過了一段極為精彩的旅程,但現在,是時候升級這座階梯了。

      歡迎來到大模型架構的下半場。

      Flash Depth Attention & MoDA論文鏈接:

      https://arxiv.org/abs/2603.15619

      Flash Depth Attention & MoDA代碼鏈接:

      https://github.com/hustvl/MoDA

      實驗室主頁:

      https://github.com/hustvl

      論文主要作者來自于華中科技大學(HUST)電子信息與通信學院視覺實驗室(Vision Lab)。HUST Vision Lab研究主要集中在計算機視覺和深度學習領域,尤其關注以下方向:多模態基礎模型、視覺表征學習、目標檢測、分割與跟蹤、端到端自動駕駛、新型神經網絡架構。

      HUST Vision Lab致力于不斷突破視覺智能的邊界,代表性工作包括:CCNet(TPAMI 2020,4300+引用,1.5K Star)、Mask Scoring R-CNN(CVPR 2019,1400+引用,1.9K Star)、FairMOT(IJCV 2021,2200+引用,4.2K Star)、ByteTrack(ECCV 2022,3400+引用,6.2K Star)、EVA(CVPR 2023,1100+引用,2.7K Star)、MapTR(ICLR 2023,400+引用,1.5K Star)、Vectorized Autonomous Driving (VAD)(ICCV 2023,600+引用,1.3K Star)、DiffusionDrive(CVPR 2025,200+引用,1.3K Star)、Vision Mamba (Vim)(ICML 2024,3100+引用,3.8K Star)、4D Gaussian Splatting (4DGS)(CVPR 2024,1400+引用,3.5K Star)、YOLOS(NeurIPS 2021,500+引用,900+ Star)、YOLO-World(CVPR 2024,1000+引用,6.3K Star),以及 LightningDiT & VA-VAE(CVPR 2025,200+引用,1.4K Star)。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “谷雨不排毒,夏天身體堵”,明日谷雨,多吃4樣排毒菜,正當季

      “谷雨不排毒,夏天身體堵”,明日谷雨,多吃4樣排毒菜,正當季

      小茉莉美食記
      2026-04-19 09:41:12
      弗格森也做不到!曼聯打破英超紀錄,切爾西有望掉出前十

      弗格森也做不到!曼聯打破英超紀錄,切爾西有望掉出前十

      嗨皮看球
      2026-04-19 16:52:48
      男子在云南大黑山攀巖受傷倒掛懸崖血流不止,路過的一群徒步大學生和消防接力施救

      男子在云南大黑山攀巖受傷倒掛懸崖血流不止,路過的一群徒步大學生和消防接力施救

      紅星新聞
      2026-04-19 16:52:20
      U17亞洲杯:中國U17擊敗印尼卡塔爾基本可晉級世少賽

      U17亞洲杯:中國U17擊敗印尼卡塔爾基本可晉級世少賽

      章民解說體育
      2026-04-19 20:23:01
      在滬做 12 年保姆,因金鐲被辭,回鄉后發現箱中是 3 本房產證與字條

      在滬做 12 年保姆,因金鐲被辭,回鄉后發現箱中是 3 本房產證與字條

      愛下廚的阿釃
      2026-04-19 11:48:29
      提到本山大叔家的公子趙大牛,他的座駕在沈陽街頭可算相當拉風。

      提到本山大叔家的公子趙大牛,他的座駕在沈陽街頭可算相當拉風。

      情感大頭說說
      2026-04-12 05:21:17
      國家其實已經暗示得很明白了,只是很多人一直沒真正聽明白!

      國家其實已經暗示得很明白了,只是很多人一直沒真正聽明白!

      Ck的蜜糖
      2026-04-10 17:45:46
      越吃血管越通!建議中老年:常吃“2菜1果”,心臟舒服,安穩過春

      越吃血管越通!建議中老年:常吃“2菜1果”,心臟舒服,安穩過春

      江江食研社
      2026-04-16 19:42:38
      光明“新鮮牧場”擦邊鮮牛奶,網友稱被誤導

      光明“新鮮牧場”擦邊鮮牛奶,網友稱被誤導

      新浪財經
      2026-04-19 12:44:38
      江蘇發布大霧大風雙警報,降溫降雨同步來襲

      江蘇發布大霧大風雙警報,降溫降雨同步來襲

      揚子晚報
      2026-04-19 22:11:11
      看上去像“公務員”,其實連編制都沒有的6個職業

      看上去像“公務員”,其實連編制都沒有的6個職業

      細說職場
      2026-04-12 17:02:40
      伊朗方面稱只要存在海上封鎖就不會談判

      伊朗方面稱只要存在海上封鎖就不會談判

      極目新聞
      2026-04-19 22:27:17
      趙心童沒讓眾星徹底嘆服!希金斯:他可能達到小特高度但無法更高

      趙心童沒讓眾星徹底嘆服!希金斯:他可能達到小特高度但無法更高

      楊華評論
      2026-04-18 18:39:32
      蔡磊妻子段睿半夜悲痛發文:明知沒有機會了,偏要賭他會等我回來

      蔡磊妻子段睿半夜悲痛發文:明知沒有機會了,偏要賭他會等我回來

      樂天閑聊
      2026-04-19 07:05:22
      長治商場女子墜樓后續:知情人曝現場細節,商場次日營業惹爭議

      長治商場女子墜樓后續:知情人曝現場細節,商場次日營業惹爭議

      奇思妙想草葉君
      2026-04-19 23:35:25
      iPhone 17突然降價,這應該是目前最香的iPhone了

      iPhone 17突然降價,這應該是目前最香的iPhone了

      劉奔跑
      2026-04-19 23:10:21
      王健林預言成真!第3輪大漲來了?內行人:2026年房價將超乎想象

      王健林預言成真!第3輪大漲來了?內行人:2026年房價將超乎想象

      貓叔東山再起
      2026-04-19 09:20:11
      老同學聚會班花陰陽我:同學中就屬你混得差,我:你爸都是我員工

      老同學聚會班花陰陽我:同學中就屬你混得差,我:你爸都是我員工

      紅豆講堂
      2025-04-23 11:05:46
      特朗普稱美伊仍能達成協議

      特朗普稱美伊仍能達成協議

      每日經濟新聞
      2026-04-19 23:13:37
      專家警告:每天吃一根香蕉,就等于給心臟“踩剎車”?真相來了

      專家警告:每天吃一根香蕉,就等于給心臟“踩剎車”?真相來了

      路醫生健康科普
      2026-04-05 11:20:07
      2026-04-20 04:12:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12497文章數 176455關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      何潤東漲粉百萬!內娛隔空掀桌第一人

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      本地
      房產
      藝術
      手機
      公開課

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      房產要聞

      官宣簽約最強城更!海口樓市,突然殺入神秘房企!

      藝術要聞

      超模施特洛耶克寫真曝光,簡直美到窒息,別錯過!

      手機要聞

      8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版