<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Bengio團隊找到了一種超越Transformer的硬件對齊方案

      0
      分享至

      編輯|Panda

      Transformer 已經改變了世界,但也并非完美,依然還是有競爭者,比如線性遞歸(Linear Recurrences)或狀態空間模型(SSM)。這些新方法希望能夠在保持模型質量的同時顯著提升計算性能和效率。

      然而,現有的線性遞歸或狀態空間模型雖然在理論上具有線性復雜度,但在高性能 GPU 上的實際表現往往并不如人意,會受限于內存帶寬和全局同步帶來的高昂通信成本。

      近日,Radical Numerics 與蒙特利爾大學 Yoshua Bengio 團隊找了一個新思路,為 LLM 的效率進化提供了一個極具啟發性的工程視角。該團隊通過將線性遞歸重新定義為硬件對齊的矩陣運算,提出了一套能夠相當完美契合 GPU 內存層級的算法框架。



      • 論文標題:Sliding Window Recurrences for Sequence Models
      • 論文地址:https://arxiv.org/abs/2512.13921

      該研究有三位共一作者:Dragos Secrieru、Garyk Brixi 和 Stefano Massaroli。他們都是 Radical Numerics 的成員,這家旨在打造科學超級智能的創業公司已經取得了一些亮眼的突破性進展,包括首批使用百萬級上下文窗口訓練的模型以及 Evo 和 Evo 2 這兩個生成式基因組學模型。

      核心挑戰:打破線性遞歸的「內存墻」

      該團隊首先指出,盡管并行掃描(Parallel Scan)算法在邏輯上能以 O(log n)的深度并行化處理遞歸,但它們在現代分級內存硬件上表現得并不理想。

      傳統的并行掃描算法,如 Kogge-Stone,具有極低的算法深度,但其數據訪問模式往往跨越全局地址空間,導致頻繁的全局內存同步和洗牌操作。



      在 GPU 這種具有多級緩存(寄存器、共享內存、顯存)的架構中,這種「扁平化」的算法策略不僅無法有效利用數據局部性,更無法發揮 Tensor Core 等專用矩陣乘法硬件的計算峰值。

      這種由于數據移動而非計算本身導致的瓶頸,正是長文本大模型訓練和推理中亟待解決的「內存墻」問題。

      為了從數學層面拆解這一問題,論文引入了轉移算子(Transfer Operator)的矩陣理論。





      這一分解揭示了一個關鍵點:跨塊通信的本質是秩 - 1(Rank-one)的低秩更新。這為消除全局同步提供了理論上的切入點。

      解決方案:滑動窗口循環與 B2P 算法

      該論文最核心的貢獻是提出了滑動窗口循環(SWR),這是一種通過策略性截斷計算視界來換取極高吞吐量的原語。





      為了將這一理論落地,作者開發了塊兩步(Block Two-Pass, B2P)算法及其對應的 CUDA 內核。



      該算法將計算過程分為兩個階段:

      在第一階段,每個線程束(Warp)并行處理一個大小為 16 的本地塊(與 Warp 大小對齊),利用 Tensor Core 通過 GEMM 方式完成高效的本地遞歸求解。

      在第二階段,算法通過 GPU 片上的共享內存(SMEM)或分布式共享內存(DSMEM)在相鄰塊之間傳遞狀態載體,并進行即時的秩-1 補償。

      這種設計確保了輸入數據只需從顯存讀取一次,所有中間通信均發生在芯片內部,實現了接近恒定的 O (1) 算法深度和極佳的硬件利用率。





      Phalanx 層設計與層級架構集成

      基于 B2P 算法,作者設計了名為Phalanx的新型計算層,它可以作為滑動窗口注意力或線性遞歸層的無縫替代品。在層參數化方面,Phalanx 遵循極簡原則,通過 Sigmoid 激活函數將遞歸系數 a_i 限制在 (0, 1) 的穩定區間內,從而保證了長序列處理時的數值穩定性。



      同時,該層采用了基于頭(Head)的參數共享模式,每個頭共享一套遞歸系數,這與 Tensor Core 處理 16×16 矩陣瓦片的計算模型完美契合。

      Phalanx 被定位為混合架構中的「局部專家」,專門負責高效捕獲短程令牌互動,而將長程路由任務交給全局注意力層。這種職能分工使得模型能夠在不損失精度的前提下,大幅減少跨內存層級的數據移動。

      更多細節請訪問原論文。

      實驗結果:速度與質量的雙重突破

      在針對 1.3B 參數規模模型的系統性測試中,Phalanx 展現出了顯著的性能優勢。在 FineWeb-Edu 數據集上,Phalanx+Attention 混合模型在多個維度上超越了優化的 Transformer 和滑動窗口注意力(SWA)基準。



      在訓練吞吐量方面,當上下文長度在 4K 到 32K 之間時,Phalanx 混合模型實現了 10% 到 40% 的端到端提速。



      在 8K 上下文的訓練任務中,Phalanx 混合模型的訓練速度比傳統的 SWA/Attention 混合架構快 28%,甚至在短序列長度下也表現卓越,在 Hopper GPU 上比純注意力模型提升了 10% 的訓練吞吐量。

      在模型精度方面,實驗數據顯示 Phalanx 在匹配 Transformer++ 基準性能的同時,甚至在特定比例下取得了更低的困惑度。

      例如,在 1:1 的混合比下,Phalanx 達到了 10.85 的困惑度,優于 Transformer++ 的 10.95。



      此外,通過對衰減系數和門控機制的消融實驗,作者證明了其精心設計的參數化方案對于維持模型表現的關鍵作用。更多詳情請參閱原論文。

      總結與行業意義

      《Sliding Window Recurrences for Sequence Models》為下一代長文本模型架構指明了一個方向:真正的效率并非僅僅來自算法復雜度的降低,更來自于對底層計算硬件物理特性的深刻理解與對齊。

      通過將數學上的線性遞歸轉化為硬件友好的塊級矩陣運算,Phalanx 層成功在訓練速度與模型質量之間找到了一個更優的平衡點。

      隨著 2025 年之后 LLM 繼續向超大規模上下文和實時具身智能演進,這種硬件感知的算子設計將成為構建更綠色、更強大 AI 系統的核心基石。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      三年3次換帥,魅族正耗盡吉利的耐心

      三年3次換帥,魅族正耗盡吉利的耐心

      螳螂觀察
      2026-01-12 18:47:57
      全紅嬋換新發型!在老家摘草莓,自家果園啥都有,烤火取暖好愜意

      全紅嬋換新發型!在老家摘草莓,自家果園啥都有,烤火取暖好愜意

      無處不風景love
      2026-01-12 19:51:27
      太牛了,社保重倉的12個龍頭集體漲停!牛市第二波啟動了

      太牛了,社保重倉的12個龍頭集體漲停!牛市第二波啟動了

      鵬哥投研
      2026-01-12 15:55:23
      貝嫂不忍了?兒子讓她向兒媳道歉,她說:我們沒有什么好抱歉的

      貝嫂不忍了?兒子讓她向兒媳道歉,她說:我們沒有什么好抱歉的

      小書生吃瓜
      2026-01-12 17:28:00
      別再吹海南免稅了!7天12億卻遭網友吐槽,價格不香還宰客套路多

      別再吹海南免稅了!7天12億卻遭網友吐槽,價格不香還宰客套路多

      你食不食油餅
      2026-01-12 14:49:23
      成龍4000萬尋回小龍女,房祖名暗中相助,吳卓林語驚全網

      成龍4000萬尋回小龍女,房祖名暗中相助,吳卓林語驚全網

      凜若秋霜
      2026-01-11 16:03:47
      格陵蘭島普通百姓:囤糧、存錢,努力保持冷靜,本以為美國是盟友,不料竟成其獵物

      格陵蘭島普通百姓:囤糧、存錢,努力保持冷靜,本以為美國是盟友,不料竟成其獵物

      紅星新聞
      2026-01-11 17:33:21
      愛優騰三大平臺齊發力“王炸劇” 輪番開播,哪一部最有劇王潛質

      愛優騰三大平臺齊發力“王炸劇” 輪番開播,哪一部最有劇王潛質

      追星頂流大姑娘
      2026-01-12 20:13:52
      一位老人感嘆:人沒必要活得太長壽。60歲走,太年輕;70歲走,有點早;80歲去世,剛好合適。

      一位老人感嘆:人沒必要活得太長壽。60歲走,太年輕;70歲走,有點早;80歲去世,剛好合適。

      二胡的歲月如歌
      2026-01-12 18:27:06
      又贏麻了?KK園區清零?衛星圖打臉擴建,媒體宣傳網友不買賬為啥

      又贏麻了?KK園區清零?衛星圖打臉擴建,媒體宣傳網友不買賬為啥

      眼光很亮
      2026-01-11 15:03:16
      她不愿意被潛規則,演了近百部戲觀眾卻叫不出她名字,42歲仍單身

      她不愿意被潛規則,演了近百部戲觀眾卻叫不出她名字,42歲仍單身

      丁丁鯉史紀
      2025-12-27 16:10:28
      詳情披露:廳官陳洪生要求“白手套”,把門市房直接給他小舅子,很直截了當

      詳情披露:廳官陳洪生要求“白手套”,把門市房直接給他小舅子,很直截了當

      新京報政事兒
      2026-01-12 21:52:16
      人民幣現金收付新規!2月起實施!

      人民幣現金收付新規!2月起實施!

      我愛大招遠
      2026-01-12 17:50:26
      收評:三大指數均漲超1% 兩市成交額3.6萬億創歷史新高

      收評:三大指數均漲超1% 兩市成交額3.6萬億創歷史新高

      財聯社
      2026-01-12 15:04:34
      杜蘭特23分火箭爆冷輸7連敗國王 阿門31+13申京復出遭隔扣

      杜蘭特23分火箭爆冷輸7連敗國王 阿門31+13申京復出遭隔扣

      醉臥浮生
      2026-01-12 12:30:05
      “戲里”是父女,“戲外”是夫妻,他倆關系公開時,孩子都8歲了

      “戲里”是父女,“戲外”是夫妻,他倆關系公開時,孩子都8歲了

      巧手曉廚娘
      2026-01-12 19:49:29
      南海撞機王偉成功跳傘,咋10萬人都找不到他?直到20多年后才明白

      南海撞機王偉成功跳傘,咋10萬人都找不到他?直到20多年后才明白

      鶴羽說個事
      2025-12-12 14:31:49
      貝克漢姆兒媳曬5.3億莊園,奢華碾壓婆家,70歲超模母親風姿未減

      貝克漢姆兒媳曬5.3億莊園,奢華碾壓婆家,70歲超模母親風姿未減

      譯言
      2026-01-12 08:42:53
      搶委內瑞拉5000萬桶石油后,特朗普才發現:中國連一桶都不愿買了

      搶委內瑞拉5000萬桶石油后,特朗普才發現:中國連一桶都不愿買了

      墨蘭史書
      2026-01-12 05:45:03
      年薪50萬遭妻子嫌棄后續:丈夫身份曝光,工資全上交,挨罵是日常

      年薪50萬遭妻子嫌棄后續:丈夫身份曝光,工資全上交,挨罵是日常

      單手搓核彈
      2026-01-06 13:44:21
      2026-01-12 22:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12101文章數 142535關注度
      往期回顧 全部

      科技要聞

      面對SpaceX瘋狂“下餃子” 中國正面接招

      頭條要聞

      官方確認殲10CE首次取得實戰戰果:零損失擊落多架戰機

      頭條要聞

      官方確認殲10CE首次取得實戰戰果:零損失擊落多架戰機

      體育要聞

      聰明的球員,不是教練教出來的

      娛樂要聞

      蔡少芬結婚18周年,與張晉過二人世界

      財經要聞

      倍輕松信披迷霧 實控人占用資金金額存疑

      汽車要聞

      增配不加價 北京現代 第五代 勝達2026款上市

      態度原創

      教育
      數碼
      藝術
      家居
      公開課

      教育要聞

      頭頂上的爭論 | 新觀察

      數碼要聞

      真我Neo8發布:全球首發165Hz三星蒼穹屏

      藝術要聞

      畫完這組畫,他抑郁了,后來自殺了

      家居要聞

      包絡石木為生 野性舒適

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产一区精品综亚洲av| 日日躁夜夜躁狠狠久久av| 高清一区二区三区| 色噜噜狠狠色综合欧洲| 亚洲 日本 欧美 中文幕| 白人无码| 亚洲日韩中文字幕乱射| 中国少妇人妻xxxxx| 日本一区二区三区四区在线看| 欧美色网| 国产精品视频流白浆免费视频| 末发育娇小性色xxxxx视频| WWW.99热| 亚洲人人爱| 精品香蕉在线视频| 欧美卡一卡二卡四卡免费| 国产视色精品亚洲一区二区 | 一本一道久久综合狠狠老| 精品一区二区三区无码视频 | 国语自产少妇精品视频蜜桃| 免费无码av片在线观看播放| 成年大片免费视频观看| 日本精品一区二区三区四区 | 精品久久久久久国产牛牛| 屁屁影院ccyy备用地址| 亚洲色道| 亚洲国产精品无码av| 制服丝袜无码| 人妻资源站| 免费AV网站| 中国不卡一区| 99久久机热/这里只有精品| av免费网站在线免费观看| 蜜桃久久精品成人无码av| 免费中文字幕在在线不卡| 性欧美vr高清极品| 影音先锋男人av橹橹色| 国产精品无码av无码| 水蜜桃自拍视频在线观看| 亚洲www啪成人一区二区| 中文字幕精品亚洲二区|