<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      中科大華為諾亞TAPPA:時序視角的統一解釋框架

      0
      分享至



      本論文的第一作者楊慶越是中國科學技術大學 2021 級碩博連讀生,師從王杰教授,主要研究方向為大模型推理加速與高效推理系統。她曾在 NeurIPS、ICLR 等頂級會議發表論文 3 篇,獲華為優秀實習生等榮譽。本工作完成于其在華為諾亞方舟實驗室科研實習期間,與中國科學技術大學 MIRA Lab 和華為團隊合作完成。

      近日,中科大王杰教授團隊(MIRA Lab)和華為諾亞方舟實驗室(Huawei Noah's Ark Lab)聯合提出了大模型注意力模式的統一分析框架 TAPPA,從時間序列視角統一解釋自回歸推理過程中多類注意力模式的形成機制,并提出訓練無關的 q-similarity 指標,將理論分析轉化為可應用的推理優化信號,在 KV 緩存壓縮與結構化剪枝中實現更合理的資源分配與穩定的精度增益。

      論文發表在人工智能頂級會議 International Conference on Learning Representations(ICLR 2026)。



      • 論文:Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis
      • 論文地址:https://arxiv.org/abs/2601.21709
      • 代碼:github.com/MIRALab-USTC/LLM-TAPPA
      • 相關工作: AttentionPredictor (NeruIPS 2025) https://arxiv.org/abs/2502.04077

      注意力模式可以幫助理解和優化大模型

      在大模型的自回歸推理中,每一個頭都會產生一個注意力分數矩陣。將它畫成熱力圖后,常能看到一些重復出現的幾何形狀。最常見的例子包括檢索式注意力頭 (retrieval head),它會在很長的上下文里跳躍地尋找少數相關 token;sink 注意力頭,它會在很長一段時間內持續聚焦到序列開頭的少數位置;以及對角線型軌跡 (streaming head),它會沿著最近 token 附近形成穩定的局部帶狀結構。這些現象被統稱為注意力模式(attention pattern)。

      這些 pattern 對應了模型在推理時不同的功能分工,例如在長上下文中進行檢索,維持開頭錨點,或者以流式方式持續讀取最新信息。并且 pattern 的結構性可以被用作推理優化的信號,例如在 KV Cache 優化中指導保留重要的歷史 token。因此,研究 pattern 的行為和出現原因對于探究大模型行為邏輯和優化大模型效率非常重要。然而,已有研究往往只描述某一種現象或某一類頭的行為,缺少統一的因果解釋與可遷移的分析框架,因此這些信號也常以經驗規則的形式出現。

      從時序視角發現和揭秘注意力模式

      我們先前工作AttentionPredictor [1] 從時間序列視角邁出了關鍵一步。它將解碼過程看作注意力隨時間演化的序列,從而以時序視角出發觀察 pattern,歸納出了注意力在解碼過程中重復的時序結構,例如重復訪問,順序訪問與周期性訪問。基于這一觀察,AttentionPredictor 把每一步的注意力視為一個隨時間演化的序列,并訓練輕量預測器去預測下一步注意力分布。預測結果可直接服務于 KV Cache 的保留與淘汰。

      本工作TAPPA[2] 延續并推進了這一條邏輯鏈,試圖回答更根本的問題:這些 pattern 為什么會出現?在完全相同的注意力公式下,為什么不同 head 會呈現清晰的對角線、反復聚焦,或看似隨機的檢索式掃描?TAPPA 的目標是給出統一解釋,并把解釋轉化為實用的推理優化信號。



      圖 1:TAPPA 總覽。左側是理論視角,右側展示用 q-similarity 指導 KV 緩存壓縮與結構化剪枝的效果。

      TAPPA:Q、K 和 RoPE 聯合分析


      TAPPA 采用時間視角審視自回歸推理。自回歸生成每一步的新 token 都建立在此前已生成序列之上,因此跨步的 hidden state 與注意力分布天然構成一段時間序列。為了把這種變化拆解到可分析的來源,TAPPA 從注意力計算的內積結構出發:



      在第 t 步解碼時,歷史 key 基本固定,注意力分布的主要變化來源于 query 的演化。于是,理解 pattern 的第一步是把 query 序列作為時間序列來研究,并分析 query 的時間連續性如何映射到注意力分布的連續性。

      進一步地,即便 query 的變化規律已知,注意力熱力圖呈現為哪一種幾何形狀還取決于兩類結構性因素。其一是Q 與 K 的幾何關系如何在跨步傳播,尤其是 Q 與 K 各自的時間連續性是否能夠在內積中被保留。其二是RoPE 如何在不同頻率通道上對相對位移施加相位調制。已有研究發現,在注意力內積中,少數 embedding 通道可能占主導并決定注意力形狀。因此我們提出了 TAPPA(時序注意力模式分析框架),將 Q,K 與 RoPE 聯合分析,一方面解釋 pattern 的跨步演化來自 query 的時間連續性,另一方面解釋具體幾何形態由主導通道與 RoPE 的通道響應共同塑造。

      核心發現:穩定模式與隨機模式的來源區別

      基于上述分析視角,TAPPA 首先關注一個更基礎的問題:哪些注意力頭更可能產生穩定且可復現的幾何結構,哪些注意力頭更可能呈現難以預測的檢索式分散結構。為此,TAPPA 把注意力模式歸為穩定模式 (predictable) 與隨機模式 (unpredictable) 兩類。穩定模式在時間軸上具有更強的連續性,跨步變化呈現清晰規律。隨機模式缺乏穩定規律,常表現為跨步跳躍的檢索式掃描。

      TAPPA 的關鍵結論是,穩定模式與隨機模式的分界與 query 的時間連續性緊密相關。為刻畫這種連續性,論文使用 q-similarity 指標,用于衡量相鄰或近鄰步驟中 query 的自相似程度。直觀上看,高 q-similarity 表示 query 在時間軸上變化更平滑,注意力更容易沿時間保持穩定結構;而低 q-similarity 表示 query 變化更劇烈,注意力更可能轉向分散且難預測的檢索式形態。



      圖 2:TAPPA 用統一的形成條件解釋多類稀疏注意力模式,并把 q-similarity 作為是否可預測的因素。



      圖 3:高與低 q-similarity 對應的注意力圖示例。高相似性更容易形成穩定結構,低相似性更接近檢索式分布。

      穩定模式內部:Q、K 連續性與 RoPE 如何塑造幾何形態

      在穩定模式內,論文進一步給出三類代表性形狀的形成條件,它們來自 Q、K 的連續性與 RoPE 的共同作用。以順序訪問為例,順序對角線并非只依賴 RoPE 的高頻通道,而需要 Q 與 K 同時具有較高自相似性,從而使注意力沿時間穩定地 “滑動”(如圖 4)。



      圖 4:順序型對角線與 Q、K 自相似性的關系示例。高 Q 相似性與高 K 相似性共同推動順序模式形成。

      周期性斜線的等間隔現象同樣來自 Q、K 連續性與 RoPE 的耦合:RoPE 會對不同相對位移引入通道級的相位調制,使得 Q 與 K 的匹配在特定步長處出現相位回歸,從而觸發注意力峰值以固定間隔重復出現。當 Q、K 的連續性使有效能量集中到少數主導通道時,主導通道的旋轉周期便決定了多條平行斜線之間的間隔,即:



      舉例如圖 5 所示,首先,通過 Key 維度的幅值剖面可以觀察到低頻 RoPE 通道在該注意力頭占主導(圖 5 (a)),此時注意力主要集中在主對角線附近,表現為典型的順序型模式(圖 5 (b))。當主導通道被人為調整到更高頻率(m = 2 或 m = 5)時,注意力不再局限于單一主對角線,而是出現周期性的平行對角線(圖 5 (c)(d)),且頻率越高 (m 越小),斜線周期越小。



      圖 5: RoPE 配置如何塑造注意力模式。(a) Key 維度的幅值剖面顯示某一 RoPE 通道占主導(示例為 m = 124)。(b) 在該主導通道下,注意力矩陣呈現近似單一主對角線的順序型模式。(c)(d) 將主導通道切換到更高頻率(m = 2 與 m = 5)后,注意力矩陣中出現周期性的平行對角線結構,且周期與頻率相關。

      把理解轉化為優化:q-similarity 指導壓縮與剪枝

      TAPPA 將 q-similarity 作為代理信號,應用到 KV Cache 壓縮和模型結構化剪枝兩個推理優化場景。

      • KV Cache 壓縮:q-similarity 用于 per-layer 預算分配。低 q-similarity 的層更可能承載檢索式注意力,需要更大緩存預算以保留關鍵 token;高 q-similarity 的層更穩定,可在更小預算下維持精度。實驗證明,在 LongBench 數據集的多種預算設置下,我們方法的表現穩定優于 Expected Attention [1] 等基線。



      圖 6 我們方法相比 Expected Attention 的準確率提升。

      • 結構化剪枝:q-similarity 與 ShortGPT [2] 的 Block Influence 結合,形成更可靠的層重要性評分。實驗證明,TAPPA 在多個模型與剪枝比例下均獲得提升,其中在 LLaMA-3.1-8B、28% 剪枝比例時,四個任務的平均準確率提升了 5.6%。



      表 1:TAPPA 與 ShortGPT 在相同剪枝比例下的任務準確率比較。

      [1] Yang, Qingyue, et al. Attentionpredictor: Temporal patterns matter for kv cache compression. The Thirty-ninth Annual Conference on Neural Information Processing Systems.

      [2] Yang, Qingyue, et al. Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis. arXiv arXiv:2601.21709, 2026.

      [3] Devoto et al. Expected Attention: KV Cache Compression by Estimating Attention from Future Queries Distribution. arXiv:2510.00636, 2025.

      [4] Men et al. ShortGPT: Layers in Large Language Models are More Redundant Than You Expect. arXiv:2403.03853, 2024.

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      絕對稀缺資源!吃透【稀土+小金屬】產業鏈及 5 大核心公司

      絕對稀缺資源!吃透【稀土+小金屬】產業鏈及 5 大核心公司

      飛跑的鹿
      2026-02-27 21:06:44
      心臟最怕“缺鎂”!提醒:心臟不好的人,建議多吃這5種高鎂食物

      心臟最怕“缺鎂”!提醒:心臟不好的人,建議多吃這5種高鎂食物

      展望云霄
      2026-02-28 10:45:01
      重慶女子中靈山墜崖案:7大疑點越扒越深,每一個都經不起細想

      重慶女子中靈山墜崖案:7大疑點越扒越深,每一個都經不起細想

      天天熱點見聞
      2026-02-27 07:03:39
      承認錯判!國際籃聯親自道歉,日媒:若公正吹罰,日本將是慘敗!

      承認錯判!國際籃聯親自道歉,日媒:若公正吹罰,日本將是慘敗!

      現代小青青慕慕
      2026-02-28 08:06:45
      浙江,25個區縣人口流入率超50%,義烏超100

      浙江,25個區縣人口流入率超50%,義烏超100

      安安小小姐姐說城市
      2026-02-28 06:40:03
      特朗普的深層恐懼,資本家不允許再出現第二個羅斯福

      特朗普的深層恐懼,資本家不允許再出現第二個羅斯福

      月滿大江流
      2026-02-27 07:00:03
      2026年江蘇發生全國首起巨額搶劫案,197萬,疑犯已捕

      2026年江蘇發生全國首起巨額搶劫案,197萬,疑犯已捕

      燦若銀爛
      2026-02-27 21:16:02
      清華大學副校長:要求大一至大三學生每學期至少完成24次課外鍛煉 不會游泳不能畢業

      清華大學副校長:要求大一至大三學生每學期至少完成24次課外鍛煉 不會游泳不能畢業

      紅星新聞
      2026-02-27 16:40:25
      1951年,志愿軍首次動用喀秋莎火箭炮轟擊美軍,李奇微見狀大驚:難道蘇軍已經參戰了?

      1951年,志愿軍首次動用喀秋莎火箭炮轟擊美軍,李奇微見狀大驚:難道蘇軍已經參戰了?

      史海孤雁
      2026-02-27 20:12:44
      46集諜戰劇來襲,諜戰教父打響潛伏之戰,再現高能諜中諜!

      46集諜戰劇來襲,諜戰教父打響潛伏之戰,再現高能諜中諜!

      樂楓電影
      2026-02-28 15:16:43
      王曼昱擊敗張本美和,林詩棟不敵勒布倫,止步八強

      王曼昱擊敗張本美和,林詩棟不敵勒布倫,止步八強

      子水體娛
      2026-02-28 11:53:01
      加密貨幣,全線暴跌!中東最新,美航母正執行空襲任務!伊朗總統府等30個目標遭襲

      加密貨幣,全線暴跌!中東最新,美航母正執行空襲任務!伊朗總統府等30個目標遭襲

      證券時報e公司
      2026-02-28 15:36:02
      蘋果向用戶推送iOS26.4.2,省電效果太頂,信號前所未有

      蘋果向用戶推送iOS26.4.2,省電效果太頂,信號前所未有

      庫克啥都聊
      2026-02-28 15:31:04
      終于不嘴硬了?美媒集體松口:美國GDP落后中國淪為第二大經濟體

      終于不嘴硬了?美媒集體松口:美國GDP落后中國淪為第二大經濟體

      百科密碼
      2026-02-28 10:55:03
      環球影城:一游樂項目突發故障致2人重傷!索賠超30萬元!

      環球影城:一游樂項目突發故障致2人重傷!索賠超30萬元!

      特種設備安全科普
      2026-02-27 11:34:42
      死了一個女人,埋葬半個王朝

      死了一個女人,埋葬半個王朝

      我是歷史其實挺有趣
      2026-02-27 15:23:11
      中俄邊境傳來好消息,俄羅斯終于想通了,廢棄25年的鐵路重新開通

      中俄邊境傳來好消息,俄羅斯終于想通了,廢棄25年的鐵路重新開通

      芭比衣櫥
      2026-02-28 07:02:51
      明星都心疼!演員王寧去杭州吃面,2188元一碗吃不起,老板戴金牌

      明星都心疼!演員王寧去杭州吃面,2188元一碗吃不起,老板戴金牌

      一娛三分地
      2026-02-25 18:20:47
      年后快遞員大批離職,他們不是不想干,而是心徹底涼了!

      年后快遞員大批離職,他們不是不想干,而是心徹底涼了!

      可樂愛微笑
      2026-02-28 04:53:03
      比中鎢高新還猛?4元低價+70億市值+22萬噸鎢礦 主力底部搶籌4億元

      比中鎢高新還猛?4元低價+70億市值+22萬噸鎢礦 主力底部搶籌4億元

      白淺娛樂聊
      2026-02-28 07:03:42
      2026-02-28 16:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12382文章數 142573關注度
      往期回顧 全部

      科技要聞

      狂攬1100億美元!OpenAI再創融資神話

      頭條要聞

      最高領袖辦公室附近遭襲 媒體:伊朗領導體系仍具韌性

      頭條要聞

      最高領袖辦公室附近遭襲 媒體:伊朗領導體系仍具韌性

      體育要聞

      球隊主力全報銷?頂風擺爛演都不演了

      娛樂要聞

      疑似王一博被爆私密聊天記錄

      財經要聞

      沈明高提共富建議 百姓持科技股國家兜底

      汽車要聞

      嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

      態度原創

      家居
      本地
      親子
      房產
      游戲

      家居要聞

      素色肌理 品意式格調

      本地新聞

      津南好·四時總相宜

      親子要聞

      多地公布去年育兒補貼資金規模

      房產要聞

      濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

      《無主之地4》新DLC發布 新強敵與超珍戰利品登場

      無障礙瀏覽 進入關懷版