<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      15%全量Attention!「RTPurbo」阿里Qwen3長文本推理5倍壓縮方案

      0
      分享至



      機器之心發布

      為什么大模型廠商給了 128K 的上下文窗口,卻在計費上讓長文本顯著更貴?

      為什么 Claude 能 “吞下整本書”,但官方示例往往只展示幾千字的文檔?

      為什么所有大模型廠商都在卷 “更長上下文”,而真正做落地的產品經理卻天天琢磨 “怎么把用戶輸入變短”?

      這些看似矛盾的現象,其實答案藏在一個長期被技術光環遮掩的真相里:

      長序列,正在成為大模型應用里最昂貴的奢侈品

      在當前主流的 Full Attention 機制下,計算開銷會隨著輸入長度平方增長,序列一長,處理就變得 “又貴又慢”(見圖 1)。針對這一核心難題,阿里 RTP-LLM 團隊提出了一種全新的后訓練壓縮方案:RTPurbo。在不損失模型效果的前提下,實現了 Attention 計算5 倍壓縮(見圖 2)。



      左圖 1:長序列 Attention 計算成本瓶頸;右圖 2:RTPurbo 極大降低 Attention 計算開銷

      總的來說, RTPurbo 采用了一種非侵入式的壓縮方法:通過分辨 LLM 內部的長程 Attention Head,僅保留關鍵 Head 的全局信息,對于剩下冗余的 Head 直接丟棄遠程 Tokens。這種 Headwise 級別的混合算法以其簡潔的方案設計和優越的算子兼容性,極大地降低了大模型在長序列下的推理代價,為新一代 LLM 結構設計提供了一個新的視角和演進方向。

      目前,項目模型與推理代碼已經發布至 Huggingface、ModelScope 平臺,感興趣的讀者可以閱讀 RTP-LLM 相應的技術 blog 了解更多細節。

      1. https://huggingface.co/RTP-LLM/Qwen3-Coder-30B-A3B-Instruct-RTPurbo
      2. https://modelscope.cn/models/RTP-LLM/Qwen3-Coder-30B-A3B-Instruct-RTPurbo



      圖 3:RTPurbo 采用混合壓縮方案,僅有少數 Attention Head 使用全量 Attention)

      化繁為簡,被低估的 SWA



      但在真實落地中,這兩條路線都有較明顯的共性代價:一方面,它們通常強依賴大量后訓練,工程實現與適配成本也更高;另一方面,Linear Attention 在壓縮信息后,長序列下的召回能力顯著弱于 Full Attention [1],因此往往需要與 Full Attention 混合使用,帶來性能與加速收益的雙重上限。此外,Linear / Sparse Attention 的算子與調度設計相對復雜,也進一步影響其在工程生態中的通用性、可維護性與一致性。也正因如此,一些前期工作 [2] 反而把目光投向看似 “簡單粗暴” 的 Sliding Window Attention(SWA),例如 gpt-oss 和 MiMo ,這在一定程度上說明 SWA 并非 “權宜之計”,而是一種可規模化復用的工程選擇。

      在進一步分析現有 LLM 的注意力模式后,團隊觀察到一個更細粒度的關鍵現象:絕大多數 Attention Head 天然更偏好局部信息,只有極少數 “長程頭” 能在長文本中穩定地定位并召回關鍵關聯信息。基于這一現象,團隊提出了一個關鍵假設:

      類似人類的閱讀與寫作過程,LLM 在處理長文本時,往往會先從長上下文中 “召回” 相關信息,再在相對局部的上下文范圍內完成推理并輸出答案

      換句話說,模型內部可能只有少量 Attention Head 真正在承擔 “信息召回” 的職責:它們通過注意力機制把遠距離信息搬運到當前的 Residual Stream(信息通道)中,讓后續層可以在更局部、更高信噪比的狀態下完成推理。這也直接意味著:對于那些并不承擔長程依賴的 Attention Head,其實并不需要使用 Full Attention—— 長序列場景存在可觀的壓縮空間。

      為了驗證這一假設,團隊設計了一個直觀的對比試驗:

      1. 方案一:只有 15% 的長程頭使用 Full Attention,剩余 85% 使用 SWA;
      2. 方案二:15% 的長程頭使用 SWA,剩余 85% 使用 Full Attention。

      如表 1 所示,盡管方案二保留了 85% 的 KV cache,但是其長文能力仍然顯著劣于方案一。



      表 1:方案一只用 15% 的 Full Attention,長文效果顯著優于方案二

      進一步地,在不做任何微調的情況下,方案一在長文本指標上也非常有競爭力(表 2),幾乎無損:



      表 2:方案一不經過訓練,在 Ruler 上無損

      不過,在某些特定的長文任務上,未經微調的壓縮模型仍會出現明顯的性能退化(見表 3)。其根源在于:壓縮前后注意力模式的直接切換會對模型輸出造成一定擾動,需要額外訓練來 “消化” 這種變化。



      表 3:方案一在特殊 benchmark 上仍然存在顯著負向

      因此,為實現更接近 “無損” 的壓縮,團隊進一步提出了一個面向 RL 后模型的壓縮訓練范式:在不依賴高質量標注數據的前提下,僅通過輕量級微調,就能顯著提升壓縮后模型在長文任務上的表現。

      自蒸餾,從根本上解決數據問題

      當前主流 LLM 通常采用 “預訓練 + 后訓練 + RL” 的訓練范式,如果直接使用長文 SFT / 預訓練語料進行續訓,會帶來兩方面挑戰:

      1. RL 后模型在經過 SFT 會出現過擬合甚至災難性遺忘,損傷短文本任務上的原有能力(見表 4);
      2. 高質量的長文本語料難以獲取。



      表 4:Qwen3-30B-A3B-Instruct RL 后模型繼續 SFT 會過擬合,造成災難性遺忘

      為解決這兩點,RTPurbo 使用 “模型自蒸餾” 作為關鍵訓練策略:讓壓縮后的模型對齊原模型輸出,從而同時化解數據與能力保留問題:

      1. 僅對模型自身的輸出進行對齊,避免依賴特定領域的問答數據,從而確保短文本下游指標基本無損;
      2. 只需使用長文本預訓練語料即可完成訓練,使模型快速適應 headwise 稀疏的工作模式。

      實測中,僅使用約 1 萬條 32k 長度的預訓練語料(訓練時間小時級),RTPurbo 就能讓長文任務表現與原模型持平。

      結果對比

      在長文本測試場景下,RTPurbo 僅保留約 15% 的 Attention Heads 使用 Full KV cache,壓縮后的 Qwen-Coder-Plus、Qwen3-30B-A3B-Instruct 在多項長文指標上可與未壓縮模型齊平,充分驗證了壓縮后模型的精度保障。



      更重要的是,這種壓縮并非以犧牲通用能力為代價。在多項短文本(通用)Benchmark 上,采用自蒸餾范式訓練后的模型并未出現性能衰減,原有對話、推理和代碼理解等能力都得到了良好保留。



      這表明,RTPurbo 不僅是一種單一模型的 “特定優化技巧”,而是一套具有良好可遷移性和通用性的長序列加速方案,可為更大規模、更多架構的 LLM 提供高性價比的推理加速路徑。

      從大模型可解釋性到 LLM 壓縮

      早期可解釋性工作 [3] 已指出:模型內部存在很強的 “召回” 機制,一部分特定 Attention Head 能穩定定位前文相關信息。團隊成員的前期工作 [2] 也觀察到這些 Head 在長文場景仍保持類似行為。

      與此同時,在 [4] 中,作者指出 Softmax 本身在長序列存在熵增的問題。更具體的,隨著序列變長,每個 Token 的注意力不可避免的變得更加彌散(信噪比降低),如下圖所示:



      圖 4:Attention 在長序列下存在信噪比下降的問題

      因此,為了避免遠程信息干擾模型本身的推理能力,LLM 內部實現了一種非常巧妙的機制:

      • 多數 Head 只處理局部信息,以獲得更高信噪比;
      • 少數 Head 負責從遠處 “召回” 關鍵信息并搬運到當前位置,使后續層能在局部范圍內完成推理。

      這與 RTPurbo 的 headwise 設計高度一致:把 “全局召回” 能力集中保留給少量關鍵 Head,其余 Head 則用工程收益更穩定的 SWA 來承載。

      RTP-LLM:RTPurbo 在長文上的極致性能優化



      圖 5:RTPurbo HeadWise Attention 性能加速結果,圖上結果僅使用 15% 的 Full Attention

      RTPurbo 按固定比例劃分 SWA Head 與 Full Head 雖然直觀有效,但工程上必須解決一個問題:不同 Head 計算模式與計算量不一致,會導致負載不均衡,影響 GPU 并行效率與端到端吞吐。

      為此,RTP-LLM 圍繞該不均衡在算子層與框架層做了針對性優化,核心包括:

      • Full Attention Head 的 PTX 級優化:對仍需全量計算的 Full Head 深入 PTX 指令層,利用 gmma::mma_async_shmA 等異步拷貝與矩陣乘指令提升效率;融合 IO warps 與 P/V 計算階段,優化 Ping-Pong 流水與調度,減少空轉等待。
      • 稀疏度感知的負載均衡調度:針對 Tail Latency,采用稀疏度感知動態調度(如反向拓撲排序),優先分配重 tile 給 SM,使各 SM 更同步完成任務,降低尾延遲、提升吞吐。
      • SWA 的高效實現:避免傳統 SWA 常見的 “三段式 KV 拼接” 或 “Custom Mask” 做法(訪存與調度開銷大),通過重塑數據布局與計算路徑減少冗余訪存與額外算子開銷。
      • 用 CP(Context Parallel)替代 TP(Tensor Parallel):在 headwise 稀疏場景下,TP 易導致算力利用率低且不夠靈活;采用 CP 讓單卡完成全部 head 的 attention 計算,提高 GPU 利用率,并通過計算 - 通信重疊降低通信開銷。

      綜合以上優化,RTP-LLM 能將 Attention 稀疏帶來的理論收益穩定、可復現地轉化為端到端加速;在 256k 長序列下實現單算子最高 9× 加速(見圖 5,圖中僅 15% Head 使用 Full Attention)。

      團隊介紹

      RTP-LLM 是阿里巴巴智能引擎團隊自研的高性能大模型推理引擎,支持了淘寶、天貓、高德、餓了么等核心業務的大模型推理需求。智能引擎源自阿里巴巴搜索、推薦和廣告技術,是阿里 AI 工程領域的先行者和深耕者。團隊專注于 AI 工程系統的建設,主導建立了大數據 AI 工程體系 AI?OS,持續為阿里集團各業務提供高質量的 AI 工程服務。

      RTP-LLM 項目已開源,歡迎交流共建: https://github.com/alibaba/rtp-llm

      參考文獻:

      [1]: Repeat After Me:Transformers are Better than State Space Models at Copying.

      [2]: RazorAttention: Efficient KV Cache Compression Through Retrieval Heads

      [3]: In-context Learning and Induction Heads

      [4]: 蘇建林,“注意力機制真的可以集中注意力嗎?”,https://www.spaces.ac.cn/archives/9889

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      瓜帥開超重禁令!1米95英超魔王嚇尿:190斤 還好沒事 4年長1斤肉

      瓜帥開超重禁令!1米95英超魔王嚇尿:190斤 還好沒事 4年長1斤肉

      風過鄉
      2025-12-26 13:06:52
      為何一定要為小洛熙進行手術?真實原因曝光,刺痛全網

      為何一定要為小洛熙進行手術?真實原因曝光,刺痛全網

      老特有話說
      2025-12-25 12:16:26
      極目政情丨蘇州市委書記范波(湖北洪湖人),添新職!

      極目政情丨蘇州市委書記范波(湖北洪湖人),添新職!

      極目新聞
      2025-12-26 16:00:36
      中國為什么沒有美國的“斬殺線”?

      中國為什么沒有美國的“斬殺線”?

      農民日報
      2025-12-25 19:43:11
      女子被閨蜜“搶走”老公后續:閨蜜多張照片遭曝光,不如原配好看

      女子被閨蜜“搶走”老公后續:閨蜜多張照片遭曝光,不如原配好看

      漢史趣聞
      2025-12-26 14:43:39
      36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

      36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

      釋凡電影
      2025-08-14 09:33:19
      “AI教母”李飛飛最新采訪:K12教育是浪費學生時間,靠AI都可以做到

      “AI教母”李飛飛最新采訪:K12教育是浪費學生時間,靠AI都可以做到

      智車星球
      2025-12-24 22:53:38
      從普通人到惡魔,只有一步之遙

      從普通人到惡魔,只有一步之遙

      近距離
      2025-12-24 11:07:14
      殲-36雙機編隊首飛,用實力為美國航母劃下4000公里生死紅線

      殲-36雙機編隊首飛,用實力為美國航母劃下4000公里生死紅線

      哲叔視野
      2025-12-26 10:26:31
      美媒扒愛德華茲離場前爆笑細節:指著3個裁判一頓痛罵 沒放過一人

      美媒扒愛德華茲離場前爆笑細節:指著3個裁判一頓痛罵 沒放過一人

      Emily說個球
      2025-12-26 16:07:48
      剛剛!中國雷霆宣言:臺海峽全面軍事管轄,外艦“自由航行”終結

      剛剛!中國雷霆宣言:臺海峽全面軍事管轄,外艦“自由航行”終結

      花花娛界
      2025-12-26 21:28:00
      李嘉誠:有正常的政治氛圍良好的商業環境,就不存在跑不跑的問題

      李嘉誠:有正常的政治氛圍良好的商業環境,就不存在跑不跑的問題

      紫京講談
      2025-12-26 16:59:51
      反轉了!美國過圣誕風波僅1天,姜昆出手了,楊議臉都丟光了

      反轉了!美國過圣誕風波僅1天,姜昆出手了,楊議臉都丟光了

      墨印齋
      2025-12-26 17:07:12
      南京博物館事件后,全國博物館紛紛關閉:施工關閉、臨時關閉

      南京博物館事件后,全國博物館紛紛關閉:施工關閉、臨時關閉

      爆角追蹤
      2025-12-26 11:02:32
      汽車誤入施工棧橋墜河一家5口遇難,死者老家村民發聲:車主非常能吃苦,前幾年才在廣州買房

      汽車誤入施工棧橋墜河一家5口遇難,死者老家村民發聲:車主非常能吃苦,前幾年才在廣州買房

      極目新聞
      2025-12-26 19:00:54
      馬琳擔任總教練,肖戰是副總教,孫遜是男隊教練,女隊教練有懸念

      馬琳擔任總教練,肖戰是副總教,孫遜是男隊教練,女隊教練有懸念

      子水體娛
      2025-12-26 23:48:13
      玥兒箖箖驚喜出鏡,馬筱梅圣誕家中待客,倆孩子已有新的社交圈

      玥兒箖箖驚喜出鏡,馬筱梅圣誕家中待客,倆孩子已有新的社交圈

      調侃國際觀點
      2025-12-26 20:11:11
      用力過猛!51歲林志玲打扮“日系”現身上海,網友:又老又年輕

      用力過猛!51歲林志玲打扮“日系”現身上海,網友:又老又年輕

      韓馳
      2025-12-26 22:40:24
      國安部:某境外勢力通過深度偽造技術生成虛假視頻,企圖向境內傳播制造恐慌

      國安部:某境外勢力通過深度偽造技術生成虛假視頻,企圖向境內傳播制造恐慌

      澎湃新聞
      2025-12-26 08:29:08
      和大佬海外產子真相大白7個月,39歲江疏影曝近照,一點也不意外

      和大佬海外產子真相大白7個月,39歲江疏影曝近照,一點也不意外

      洲洲影視娛評
      2025-12-26 12:24:42
      2025-12-27 07:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12000文章數 142521關注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財經要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

      態度原創

      家居
      旅游
      本地
      健康
      公開課

      家居要聞

      格調時尚 智慧品質居所

      旅游要聞

      百年老街變身!上海新天地東臺里開業,解鎖冬日消費新范式

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬年史書

      這些新療法,讓化療不再那么痛苦

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产农村妇女aaaaa视频| 亚洲欧美综合区自拍另类| 精品人妻伦一二三区久久aaa片| 国产精品久久777777| 国产午夜视频在线观看| 安溪县| 成人国产综合| 尚志市| 亚洲欧美v国产一区二区| 国内a∨免费播放| 亚洲激情偷拍| 伊人成人社区| 亚洲色图综合| 国产精品一区二区av| 欧美一区二区三区欧美日韩亚洲| xxx久久| 亚洲综合成人亚洲| 亚洲 丝袜 另类 校园 欧美| 亚洲2区3区4区产品乱码2021 | 久久精品一本到99热免费| 秋霞无码久久久精品| 无码少妇一区二区三区芒果| 成人免费毛片aaaaaa片| 无码www毛色一区二区| 97大香| 久久人人97超碰人人澡爱香蕉| 精品综合久久久久久98| 亚洲黄色精品| 无码人妻专区| 精品无码毛片| 能把下面看湿的视频| 少妇人妻偷人精品免费| 国产思思99re99在线观看| 精品久久久久久亚洲综合网| 中文字幕亚洲综合久久综合| 亚洲免费人妻| 芦溪县| AV第一页| 曰韩中文字幕| 亚洲乱熟女av| 久久婷婷五月综合|