<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Transformer終結者!谷歌DeepMind全新MoR架構問世,推理速度翻倍、內存減半!

      0
      分享至


      來源:新智元

      【導讀】Transformer殺手來了?KAIST、谷歌DeepMind等機構剛剛發布的MoR架構,推理速度翻倍、內存減半,直接重塑了LLM的性能邊界,全面碾壓了傳統的Transformer。網友們直呼炸裂:又一個改變游戲規則的炸彈來了。

      就在剛剛,KAIST、Mila和谷歌DeepMind團隊等放出重磅炸彈——

      一個名為Mixture-of-Recursions的全新LLM模型架構。

      這個嶄新的架構,被業內認為有潛力成為Transformer殺手!

      它的推理速度提升2倍,訓練FLOP減少,KV緩存內存直接減半。

      最終,在135M到1.7B的參數規模下,MoR直接劃出了一個新的帕累托前沿:相同的訓練FLOPs,但困惑度更低、小樣本準確率更高,并且吞吐量提升超過2倍。

      全面碾壓傳統的Transformer!


      論文鏈接:https://arxiv.org/abs/2507.10524

      其實,學界很早就發現,Transformer復雜度太高,算力需求驚人。

      比如最近CMU大牛、Mamba架構作者Albert Gu就表示,Transformer模型能力的局限太大,所謂token就是胡扯。


      而谷歌產品負責人Logan Kilpatrick公開指出了注意力機制的缺陷——不可能實現無限上下文,還強調必須要在核心架構層進行全面創新。

      今天谷歌DeepMind的這項研究,和這些大牛的觀點不謀而合了。

      對此,網友們紛紛表示實在炸裂。

      有人預測,潛在空間推理可能會帶來下一個重大突破。


      顯然,對于代碼、數學、邏輯這類分層分解問題的任務,MoR都是一個改變游戲規則的重磅炸彈。



      甚至還有人評論道:看起來像是Hinton的膠囊網絡重生了。


      谷歌DeepMind放大招

      遞歸魔法讓LLM瘦身還提速

      LLM發展到如今,接下來該怎樣做?靠堆參數、加層數,讓它更聰明嗎?

      這項研究告訴我們:真正的高手,從來都不是靠堆料,而是靠設計的藝術。

      這次他們做出的MoR全新架構,直譯出來是「遞歸混合體」,直接讓LLM推理速度噌噌翻倍!

      所以,MoR究竟做了什么?

      簡而言之,它做了以下兩點。

      1. 不對所有token一視同仁

      LLM在處理文本時,會把句子拆成一個個token,不過,像「的」「是」「在」這種詞,并不需要多高深的推理,只需要一次前向傳播就夠了。而復雜的token,則需多次經過同一層棧。

      MoR的聰明之處就在于,因token而異。

      MoR的秘密武器是小型路由器,會為每個token的隱藏狀態打分,僅高分token的會繼續循環,其余的則提前退出。


      2. 循環復用:一個模塊搞定全部

      傳統Transformer的思路就是不斷「堆層」,堆得越高,處理能力越強。但這樣的代價,就是內存和算力:模型會越來越慢,越來越貴。

      而MoR則反其道而行之,專門設計了共享塊,每個token最多循環4次,只要路由器說「完成」,就提前跳出循環。

      總之,如果說Transformer是一個龐大的工廠流水線,那MoR就更像一支高效的特種部隊。未來的AI,恐怕不會再比拼誰更重,而是誰更會分工調度、節省力氣。

      而谷歌DeepMind,已經敏銳地把握到了這一點,給我們演示了這一趨勢的早期范本。

      真自適應計算

      只靠Scaling law,把語言模型做大,確實能讓它能力暴漲,但訓練、部署所需的算力和成本也跟著暴漲。

      現在常見的「瘦身」招數,要么是把參數共享(省顯存),要么是按需計算(省算力)。

      但目前仍缺乏一種能將兩者有機融合的架構。

      「遞歸混合」(Mixture-of-Recursions, MoR),充分發揮了遞歸Transformer的潛力(見圖1),成功融合了兩者。


      圖1:遞歸混合(Mixture-of-Recursions,MoR)概覽

      (左)每個遞歸步驟包含固定層堆棧和決定token是否繼續遞歸的路由器(中間灰框區域)。

      (中)完整模型結構,其中共享遞歸步驟根據路由決策對每個token最多應用次。

      (右)展示token級遞歸深度的路由模式示例,顏色越深表示該token在遞歸塊中的計算越活躍。底部數字以不同顏色標注各文本token的遞歸步數:1步、2步和3步 。

      在統一的架構中,MoR同時實現了三種效率優化:

      通過共享權重壓縮參數量;通過動態路由減少冗余計算;通過智能緩存減少內存開銷。

      遞歸混合架構

      在預訓練和推理過程中,MoR為每個token動態調整遞歸步驟,依賴兩大組件:

      路由機制和KV緩存策略。

      路由機制:專家選擇vs.token選擇

      受top-k門控機制的啟發,研究人員提出了專家選擇路由(Expert-choice routing)(見圖2a)。

      在這種模式下,遞歸深度可看作「專家」,每輪遞歸時這些專家會挑選它們認為最值得處理的top-k個token。


      為了讓遞歸更具一致性,團隊還引入了分層篩選機制(hierarchical filtering):只有在第r層中被選中的token,才有資格參與第r+1層的評估。

      這一設計模擬了早退出機制,讓模型在訓練初期就能自動「篩選」出需要深度處理的token,把算力集中到最困難的token上。

      與前者不同,token選擇路由(token-choice routing)(見圖2b),在一開始就決定了每個token要走多少次遞歸流程。

      具體來說,根據第1層的隱藏狀態,模型會計算每個專家的打分(如通過softmax或sigmoid)。

      假設有個專家,每個專家對應一次遞歸,那么模型將token分配給得分最高的專家。 token將被送入前i層遞歸,每層都按順序進行處理。

      在這種方式中,token在進入網絡時就確定好遞歸深度,同時避免了每一層的重新選擇,提升了推理效率。

      表2左比較了兩種方法

      expert-choice路由的優點在于,它可以實現理想的計算負載均衡。然而,它容易信息泄露。

      相比之下,token-choice路由天然不會泄露信息。但這種方式負載分配不均。


      表2:路由策略與鍵值緩存策略的比較。(左)兩種路由策略總結:專家選擇與令牌選擇;(右)緩存策略相對于普通Transformer的相對成本效率


      圖2:混合遞歸(MoR)的架構組件。(a)專家選擇路由;(b)token自主選擇路由;(c)KV緩存策略

      KV緩存策略:按遞歸層緩存vs.跨層共享

      針對MoR模型,研究人員提出了兩種KV緩存策略:按遞歸層緩存和跨遞歸共享

      1.按遞歸層緩存(見圖2c上)是「選擇性緩存」:只有被路由到某一遞歸層的Token,才會在該層生成并存儲它的KV對。

      注意力計算僅在當前遞歸層的緩存內進行,這種設計有助于實現局部化計算,顯著提升了內存使用效率,并減少I/O負擔。

      2.跨遞歸共享(見圖2c):只在第一個遞歸層生成并緩存KV對,然后在之后所有層中重復使用。這種機制下,每一層參與注意力計算的Query數量可能會減少。

      也就是說,所有Token無論在后續層是否繼續參與計算,都可以完整地訪問歷史上下文,無需重新計算。

      表2右對比了兩種緩存策略:

      • 按遞歸層緩存:KV內存與I/O負擔,被壓縮為原來的一半左右。

      • 跨遞歸共享:只能線性壓縮注意力計算量,而且KV的讀寫次數較高,可能會成為性能瓶頸。


      表3:在等計算量與等token數條件下,MoR、遞歸Transformer、普通Transformer的比較

      實驗

      研究者從零開始預訓練模型,采用基于Llama的Transformer架構,參考了SmolLM開源模型的配置,在FineWeb-Edu的驗證集和六個few-shot基準測試集上進行了評估。

      主要結果

      在相同訓練計算預算下,MoR以更少參數優于基線模型

      在相同的訓練預算(16.5e18 FLOPs)下,研究者將MoR模型與標準Transformer和遞歸Transformer進行了對比。


      在四種模型規模(135M、360M、730M和1.7B參數)下,不同計算預算對應的驗證損失對如圖

      如表3所示,MoR模型采用專家選擇路由和兩次遞歸(Nr=2),不僅在驗證損失上更低,在few-shot平均準確率上也優于標準基線。

      這得益于MoR更高的計算效率,使其在相同FLOPs預算下能處理更多的訓練token。

      在相同數據量下,MoR用更少計算量仍優于基線模型

      為了隔離架構差異的影響,研究者在固定訓練token數量(20B)的前提下進行分析。

      結果證實,在少了25%訓練FLOPs的情況下,MoR模型(=2)仍然實現了更低的驗證損失和更高的準確率,超越了標準和遞歸基線。

      與標準基線相比,MoR模型的訓練時間減少了19%,峰值內存使用量降低了25%。

      這就要歸功于專門設計的分層過濾機制和按遞歸進行的注意力機制。

      此外,MoR的性能也會受路由與緩存策略的影響。

      IsoFLOP分析

      評估一種新模型架構設計的核心標準之一,是其在模型規模和計算量增長時,性能是否能持續提升。

      因此,研究團隊全面對比了MoR與標準Transformer(Vanilla)和遞歸Transformer。

      實驗設置

      實驗的模型規模有四種:135M、360M、730M 和1.7B 參數。

      對于遞歸Transformer和MoR配置,遞歸次數統一設為3。

      在三個不同的計算預算下,進行預訓練:2e18、5e18和16.5e18 FLOPs。

      MoR架構:可擴展且參數高效

      如圖3所示,在所有參數規模和算預算力下,MoR始終優于遞歸基線模型。

      盡管在最小規模(135M)時,MoR表現略遜于標準Transformer,但隨著模型規模擴大,這一差距迅速縮小。

      當參數規模超過360M時,MoR不僅能夠與標準Transformer持平,甚至在低計算量和中等計算預算下,表現更加優越。

      總體而言,這些結果表明,MoR具備良好可擴展性和高參數效率,可替代舊架構。

      推理吞吐量評估

      通過參數共享,MoR能利用連續深度批處理技術,在推理階段顯著提升了吞吐量。

      這種機制在解碼過程中,舊序列完成后立刻填入新tokens,持續保持了GPU的高利用率。

      實驗設置

      在360M參數規模下,在不同遞歸深度(2、3和4)下,團隊測試了MoR模型。

      利用深度批處理,MoR顯著提升推理吞吐量

      如圖4a所示,在兩種設置下,MoR變體的推理吞吐量都超過了普通Transformer。

      遞歸深度越高,越多tokens會提早退出,從而減少KV緩存的使用,進一步大幅提升了推理速度。例如,在最大批設置(=Max)下,MoR-4速度可提升2.06倍

      實驗表明,結合深度批處理機制與提前退出策略,可大幅加速MoR模型在實際的推理速度。


      消融實驗等更多內容和細節,請參閱原文。

      參考資料:

      https://arxiv.org/abs/2507.10524

      https://x.com/rohanpaul_ai/status/1945342236310561091

      https://www.rohan-paul.com/p/landmark-research-from-google-deepmind

      為偉大思想而生!

      AI+時代,互聯網思想(wanging0123),

      第一必讀自媒體

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      廣東人特意跑威海看雪:晚上路上沒什么人,都是南方人在玩雪

      廣東人特意跑威海看雪:晚上路上沒什么人,都是南方人在玩雪

      瀟湘晨報
      2026-01-12 17:06:12
      馬年“春晚”排成這樣,我斷言:觀眾看完,會站起來鼓掌

      馬年“春晚”排成這樣,我斷言:觀眾看完,會站起來鼓掌

      皮皮電影
      2026-01-12 13:35:03
      中國表達了對伊朗政權的支持

      中國表達了對伊朗政權的支持

      桂系007
      2026-01-12 23:41:10
      原中央黨校副校長總結“中國官場三大定律”

      原中央黨校副校長總結“中國官場三大定律”

      霹靂炮
      2026-01-12 21:18:44
      讓人眼紅!合川呆呆3天漲粉175萬,預計收入400萬,96個大哥守護

      讓人眼紅!合川呆呆3天漲粉175萬,預計收入400萬,96個大哥守護

      火山詩話
      2026-01-13 06:57:26
      百萬粉絲網紅“你的渡口”去世,知情人:系熬夜猝死,遺體已火化;是多年潮流圈博主,曾參賽《說唱聽我的》

      百萬粉絲網紅“你的渡口”去世,知情人:系熬夜猝死,遺體已火化;是多年潮流圈博主,曾參賽《說唱聽我的》

      大風新聞
      2026-01-13 08:02:04
      砸盤了,廣州某網紅樓盤暴跌70%,從3.7萬/平跌到1.1萬/平!

      砸盤了,廣州某網紅樓盤暴跌70%,從3.7萬/平跌到1.1萬/平!

      黯泉
      2026-01-12 22:13:32
      這下子,特朗普算是明白,為什么前任都不敢動委內瑞拉了

      這下子,特朗普算是明白,為什么前任都不敢動委內瑞拉了

      諦聽骨語本尊
      2026-01-12 13:59:10
      中國導演奪金球大獎「當場傻住」 她現身全場起立…李奧納多上臺了

      中國導演奪金球大獎「當場傻住」 她現身全場起立…李奧納多上臺了

      ETtoday星光云
      2026-01-12 14:18:06
      美國移民特工射殺三孩媽媽反轉了?還不如不反轉呢

      美國移民特工射殺三孩媽媽反轉了?還不如不反轉呢

      韜聞
      2026-01-12 10:51:02
      變味了!呆呆與合川文旅忙了一整天攢的好感,全被紅衣女網紅敗光

      變味了!呆呆與合川文旅忙了一整天攢的好感,全被紅衣女網紅敗光

      阿纂看事
      2026-01-12 15:03:18
      官方披露!馬杜羅瑞士個人賬戶坐擁127噸黃金

      官方披露!馬杜羅瑞士個人賬戶坐擁127噸黃金

      老馬拉車莫少裝
      2026-01-12 18:14:12
      克洛普執教皇馬提四大硬要求:必須挖利物浦核心,兩大巨星遭清洗

      克洛普執教皇馬提四大硬要求:必須挖利物浦核心,兩大巨星遭清洗

      瀾歸序
      2026-01-13 02:28:10
      馬斯克173分鐘訪談:當智力成本歸零,普通人唯一的護城河在哪?

      馬斯克173分鐘訪談:當智力成本歸零,普通人唯一的護城河在哪?

      小8說科技
      2026-01-12 15:05:57
      格陵蘭島本就不是丹麥的!從歷史根兒上算,真正歸屬早有定論

      格陵蘭島本就不是丹麥的!從歷史根兒上算,真正歸屬早有定論

      福建平子
      2026-01-12 10:33:34
      澤連斯基引發的鏈式反應:敘利亞、哈馬斯、黎巴嫩真主黨、委內瑞拉、伊朗

      澤連斯基引發的鏈式反應:敘利亞、哈馬斯、黎巴嫩真主黨、委內瑞拉、伊朗

      高博新視野
      2026-01-08 20:22:29
      網傳某“降糖”中藥摻入西藥二甲雙胍,央視20年前就曝過類似案例

      網傳某“降糖”中藥摻入西藥二甲雙胍,央視20年前就曝過類似案例

      爆角追蹤
      2026-01-12 11:00:49
      真是見鬼了!廣州大型超市一個接一個倒閉,而山姆在廣州又開店

      真是見鬼了!廣州大型超市一個接一個倒閉,而山姆在廣州又開店

      夜深愛雜談
      2026-01-12 20:57:24
      武漢人逛了88年的中百,一年關30家店!老牌商超為啥越轉型越難?

      武漢人逛了88年的中百,一年關30家店!老牌商超為啥越轉型越難?

      青眼財經
      2026-01-12 22:35:44
      善惡到頭終有報!57歲央視女主持王小丫,已經走上另一條大路。

      善惡到頭終有報!57歲央視女主持王小丫,已經走上另一條大路。

      原夢叁生
      2026-01-13 00:39:49
      2026-01-13 09:20:49
      互聯網思想 incentive-icons
      互聯網思想
      AI時代,互聯網思想觀察
      2383文章數 16901關注度
      往期回顧 全部

      科技要聞

      面對SpaceX瘋狂“下餃子” 中國正面接招

      頭條要聞

      針對中國稀土 貝森特很惱火:其它國家怎么一點不著急

      頭條要聞

      針對中國稀土 貝森特很惱火:其它國家怎么一點不著急

      體育要聞

      一場安東尼奧式勝利,給中國足球帶來驚喜

      娛樂要聞

      蔡少芬結婚18周年,與張晉過二人世界

      財經要聞

      年化400% 高利網貸“變形記”

      汽車要聞

      增配不加價 北京現代 第五代 勝達2026款上市

      態度原創

      教育
      健康
      房產
      家居
      軍事航空

      教育要聞

      歐美頂流,批量削掉腮幫子

      血常規3項異常,是身體警報!

      房產要聞

      重磅調規!417畝商改住+教育地塊!海口西海岸又要爆發!

      家居要聞

      包絡石木為生 野性舒適

      軍事要聞

      官方確認:殲10CE在空戰中擊落多架戰機

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产成人中文字幕精品在线| 天天躁狠狠躁狠狠躁性色av| 欧美人与物videos另类xxxxx| 五月花成人网| 在线亚洲色| 国产二区三区不卡免费| 日本一区二区三区四区在线看| 国产性爱网站| 国产大陆亚洲精品国产| 国产成人久久777777| 欧美3p视频| 久久久www成人免费精品| 一本色道久久综合亚洲精品按摩| 亚洲老女人区一区二视频| 日韩深夜福利视频在线观看| 2020aa一级毛片免费高清| 无码国产精品一区二区色情男同| 常熟市| 久久99精品国产麻豆婷婷| 91视频免费入口| 亚洲色综网| 91新视频| 丰满人妻熟妇乱又伦精品劲 | 天堂VA蜜桃一区二区三区| 国产精品一区成人亚洲| 牛牛在线视频| 国产极品高颜值美女在线| 亚洲自偷自拍熟女另类| 广宁县| 国产乱子伦精品免费女| 白人无码| 精品福利一区二区三区免费视频| 91制片厂天美传媒网站进入| 国产综合久久久777777| 亚洲无码在线免费观看| 国产美女久久久亚洲综合| 亚洲欧洲一区二区免费| 91精品国产午夜福利| 日韩毛片在线视频x| 熟年中出交尾六十路七十路 | 国产午夜无码精品免费看|