<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      首篇「Attention Sink」綜述:Transformer中注意力匯聚全景解析

      0
      分享至



      幾乎所有 Transformer 都在做一件反常的事:把大量注意力集中到少數幾個特定 Token 上。這不是 bug,而是 Transformer 固有的「注意力匯聚」(Attention Sink)。首篇系統性綜述,帶你從利用、理解到消除,全面掌握這一核心現象。

      過去幾年,研究者在 Transformer 的「黑盒」里發現了一個普遍卻反常的現象:無論輸入什么內容,模型總是把大量注意力集中到第一個 Token、[SEP] 或圖像背景補丁這類毫無信息量的位置上。傳統語言模型有,大語言模型有,ViT 有,多模態大模型也有。

      這一注意力匯聚(Attention Sink)模式,深刻影響了模型的訓練、推理動態,給注意力機制的理解帶來了挑戰,并且還會引發幻覺等問題。盡管 Attention Sink 引發了眾多討論和前沿的研究,但這一領域始終缺乏系統的全面梳理。



      來自清華大學、香港大學、美團 LongCat 團隊等機構的研究者聯合發布了首篇 Attention Sink 系統綜述,系統梳理了超過 180 篇相關研究。通過統計這些研究的發表時間和主題,綜述勾勒出這一領域的清晰演進軌跡:



      • 初期(2023 年起)—— 基本利用:早期研究的重點是對 Attention Sink 的實證利用,關注如何利用其固有特性或應對其直接影響。這一階段將 Attention Sink 視為可被利用的實際現象。
      • 中期(2024 年起)—— 機制理解:隨著實證應用成熟,研究重點開始深入探究 Attention Sink 背后的成因。這一階段聚焦于可解釋性,旨在精細理解驅動這一現象的內部機制。
      • 近期(2025 年起)—— 策略性消除:基于機理洞察,最新的研究重點轉向直接的結構性消除。開發系統的消除框架已成為當前研究的前沿。

      這一從「基本利用」到「機制理解」再到「策略性消除」的演進,正是綜述核心框架的由來。文章通過三段式框架,系統梳理了這一現象的成因、價值與完整解法。



      • 論文標題:Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation
      • 論文鏈接:https://arxiv.org/abs/2604.10098
      • GitHub 項目:https://github.com/ZunhaiSu/Awesome-Attention-Sink

      基本利用:初步駕馭 Attention Sink

      在利用 Attention Sink 的多種策略中,最直接的方式是Sink Token 保留(Sink Token Preservation):將 Sink 作為永久性的注意力錨點加以保留,在壓縮中穩定注意力分布。注意力重分配(Attention Redistribution)則更進一步,主動識別 Sink 并將其占用的權重轉移到真正承載語義的Token上。可學習前綴 token(Learnable Prefix Tokens)不再依賴自然形成的Sink,而是在輸入序列前端插入可訓練的前綴,成為顯式、可控的替代性Sink。至于Sink Token 重利用(Sink Token Repurposing),則另辟蹊徑,利用Sink穩定、高注意力的固有屬性,完成原始注意力管理之外的專門任務,如攻擊植入、防御檢測等。

      從策略邏輯看:Sink Token 保留采取被動方式;注意力重分配實施主動干預;可學習前綴 Token 采用更主動的構造策略;Sink Token 重利用則借助Sink的固有屬性完成基礎注意力管理之外的專門任務。

      機制理解:洞悉 Attention Sink 根源

      Attention Sink 為何必然出現?現有解釋從不同層面給出了答案。Softmax 限制與空操作理論(Softmax Limitations & No-Op Theory):Softmax 求和為 1 的剛性約束,使得當查詢與所有鍵都不相關時,模型沒有「什么都不選」的選項。于是被迫將注意力集中到語義無關的Token上,同時將這些Token的值向量學得極小,從而使注意力輸出趨近于零,實現空操作。異常值電路(Outlier Circuits)則揭示了模型內部存在系統性的離群值,它們相互關聯,共同導致了Sink的產生。隱式注意力偏置(Implicit Attention Bias)發現,SinkToken對每個查詢的貢獻幾乎恒定,本質上充當了固定偏置項。幾何錨點(Geometric Anchoring)進一步表明,Sink在高維表示空間中充當穩定參考點,起到錨定和穩定表示空間的作用。此外,還包括 Anti-Overmixing、Active-Dormant Attention、Mix-Compress-Refine 等其他理論。

      從分析層面看:Softmax 限制與空操作理論闡明的是數學根源,異常值電路揭示的是數值機制,隱式注意力偏置刻畫的是功能角色,幾何錨點描述的是表示空間中的功能特點。多個層面彼此互補,共同勾勒出Sink的全貌。

      策略性消除:系統消除 Attention Sink


      基于對成因的深刻理解,研究者開始從架構上系統消除 Attention Sink。門控注意力(Gated Attention)在注意力輸出后添加可學習的門控單元,模型需要空操作時直接關門,無需制造極端 Logits 和SinkToken。改良 Softmax(Modified Softmax Functions)則直接修改 Softmax 函數,從根本上消除求和為 1 的約束。可學習注意力偏置(Learnable Attention Bias)顯式引入偏置參數,讓模型用干凈的顯式偏置替代隱式Sink。預訓練干預(Pre-training Interventions)不修改架構,而是在訓練過程中施加干預,從訓練抑制Sink的形成。此外,其他消除技術還包括離群值驅動重縮放(Outlier-Driven Rescaling)、架構隔離(Architectural Isolation)等。

      從策略類型看,這些消除方法可以歸為兩類。第一類是提供顯式替代品,使 Attention Sink 不再必要,包括門控注意力和可學習注意力偏置。第二類是切斷因果鏈,從根源消除 Attention Sink,包括改良 Softmax 和預訓練干預。

      未來方向


      基于對 180 多篇論文的系統梳理,綜述指出了多個值得投入的未來方向。在高效輕量級處理(Efficient Lightweight Processing)方面,需要開發低延遲的注意力重分配、與高效內核兼容的改良 Softmax,避免Sink處理本身成為推理瓶頸。預訓練模型輕量適配(Lightweight Adaptation for Pretrained Models)則利用參數高效遷移技術,將Sink抑制能力注入已訓練好的模型中,從而避免從頭訓練的高昂成本。此外,新興架構探索(Emerging Architectures Exploration)也值得關注,研究混合線性注意力、3D Transformer 等新架構中Sink的表現與應用。其他方向還包括:訓練動態研究、統一理論框架、標準化評測基準、跨架構遷移、多技術協同集成等。

      Paper List 指南


      綜述團隊已將 180 多篇論文按三大板塊和應用場景分類整理,每篇標注了類別,方便快速定位。

      完整 Paper List 請訪問原文或 GitHub 項目:

      • 論文鏈接:https://arxiv.org/abs/2604.10098
      • GitHub 項目:https://github.com/ZunhaiSu/Awesome-Attention-Sink



      結語


      本綜述通過基本利用 → 機制理解 → 策略性消除的框架,首次系統梳理了 Attention Sink 從現象到解決方案的完整路線圖。這一領域既有理論深度,也具備明確的工程價值。

      綜述與配套的 Paper List 旨在為社區提供一份實用的參考,幫助讀者快速把握領域全貌與演進邏輯,推動 Transformer 從被動接受Sink走向主動駕馭Sink的新階段。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      特約前排觀眾
      2025-12-22 00:20:06
      被禁60年的影片:這位蔣介石最尊敬的乞丐,不該被中國人遺忘

      被禁60年的影片:這位蔣介石最尊敬的乞丐,不該被中國人遺忘

      華人星光
      2026-04-23 12:12:20
      伊朗末代國王長子回應“是否是以色列特工”:我不是,但我是以色列和猶太人的朋友;報道稱其在德國遇襲

      伊朗末代國王長子回應“是否是以色列特工”:我不是,但我是以色列和猶太人的朋友;報道稱其在德國遇襲

      魯中晨報
      2026-04-24 11:48:08
      悲催!北京土著欲娶北方小縣城留京女,因彩禮問題,男方果斷分手

      悲催!北京土著欲娶北方小縣城留京女,因彩禮問題,男方果斷分手

      火山詩話
      2026-04-23 06:28:37
      楊毅季后賽前曝猛料:北京外援集體罷吃早餐 麥基帶頭引眾怒?

      楊毅季后賽前曝猛料:北京外援集體罷吃早餐 麥基帶頭引眾怒?

      你看球呢
      2026-04-24 10:45:24
      G3輸森林狼!阿德爾曼談攻守問題,展望G4不恐慌,約基奇回應低迷

      G3輸森林狼!阿德爾曼談攻守問題,展望G4不恐慌,約基奇回應低迷

      籃球資訊達人
      2026-04-24 13:40:12
      揭秘哪吒汽車的錢去哪兒了

      揭秘哪吒汽車的錢去哪兒了

      藍媒匯財經plus
      2026-04-23 12:24:20
      何鴻燊最后11年過得是什么樣的日子?說出來可能顛覆很多人的認知

      何鴻燊最后11年過得是什么樣的日子?說出來可能顛覆很多人的認知

      人生錄
      2026-04-22 19:01:34
      直播調整!丁俊暉戰趙心童有變,肖國棟危險,美女裁判抽煙惹爭議

      直播調整!丁俊暉戰趙心童有變,肖國棟危險,美女裁判抽煙惹爭議

      曹說體育
      2026-04-24 13:05:42
      北境新王!巴恩斯成猛龍隊史第二位季后賽單場30分10助的球員

      北境新王!巴恩斯成猛龍隊史第二位季后賽單場30分10助的球員

      北青網-北京青年報
      2026-04-24 13:56:04
      中國“大齡剩女”為何泛濫成災?專家:三大原因,一個比一個現實

      中國“大齡剩女”為何泛濫成災?專家:三大原因,一個比一個現實

      舊時樓臺月
      2026-04-23 13:01:09
      東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      番外行
      2026-03-31 08:28:28
      陳毅接管上海卻鎮不住場子,陳賡推薦了一個人,讓他徹底放下了心

      陳毅接管上海卻鎮不住場子,陳賡推薦了一個人,讓他徹底放下了心

      老謝談史
      2026-04-23 05:24:38
      ESPN:唐斯表達長期留隊意愿 季后賽表現或將決定是否留隊

      ESPN:唐斯表達長期留隊意愿 季后賽表現或將決定是否留隊

      北青網-北京青年報
      2026-04-24 13:56:04
      何潤東引爆全網,網友考古呂良偉:這是從歷史里走出來的真霸王!

      何潤東引爆全網,網友考古呂良偉:這是從歷史里走出來的真霸王!

      蹲坑看世界
      2026-04-24 10:07:35
      98年劉平平成為植物人,王光美哭成淚人,劉源將姐姐接到家里照顧

      98年劉平平成為植物人,王光美哭成淚人,劉源將姐姐接到家里照顧

      雍親王府
      2026-04-24 10:15:06
      突發!DeepSeek V4 正式發布

      突發!DeepSeek V4 正式發布

      AppSo
      2026-04-24 11:16:55
      主動投案,貴州省監獄管理局原副局長吳道明接受審查調查

      主動投案,貴州省監獄管理局原副局長吳道明接受審查調查

      界面新聞
      2026-04-24 09:33:18
      《妻子的浪漫旅行》45歲金莎宣布備孕,3年前已保存凍卵,太拼了

      《妻子的浪漫旅行》45歲金莎宣布備孕,3年前已保存凍卵,太拼了

      娛君墜星河
      2026-04-24 10:20:37
      老球王戴維斯:我不想貶低丁俊暉,但誰都知道趙心童是更好的球員

      老球王戴維斯:我不想貶低丁俊暉,但誰都知道趙心童是更好的球員

      楊華評論
      2026-04-24 03:04:33
      2026-04-24 14:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12846文章數 142635關注度
      往期回顧 全部

      科技要聞

      剛剛,DeepSeek-V4 預覽版發布 百萬上下文

      頭條要聞

      華誼兄弟被申請破產:曾坐擁百位明星 如今還不起千萬

      頭條要聞

      華誼兄弟被申請破產:曾坐擁百位明星 如今還不起千萬

      體育要聞

      里程碑之戰拖后腿,哈登18分8失誤

      娛樂要聞

      王思聰被綠!戀愛期間女友被金主包養

      財經要聞

      19家企業要"鋁代銅",格力偏不

      汽車要聞

      全景iDrive 續航近800km 新款寶馬7系/i7亮相

      態度原創

      旅游
      游戲
      藝術
      公開課
      軍事航空

      旅游要聞

      “經典IP+特色文化”擦亮文旅金字招牌 特色品牌旅游專列圈粉國內外游客

      夢幻西游10開搬磚月入4189?這個游戲成就即將絕版

      藝術要聞

      16幅 佐恩高清油畫 | 瑞典著名畫家

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美伊陷入互相封鎖僵局

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产麻豆精品在线观看| 漳浦县| 精品国产一区二区三区久久久蜜月| 丁香五月激情图片| 影音先锋2020色资源网| 精品久久欧美熟妇www| 精品国产国产2021| 久久精品视频只有这里| 97精品尹人久久大香线蕉| 少妇被粗大的猛烈xx动态图| 少妇一夜三次一区二区| 国产成人无码网站m3u8| 亚洲国产成人av毛片大全 | 日本熟女人妻| 亚洲男女羞羞无遮挡久久丫| 亚洲色大成网站WWW永久麻豆| 欧美成人一区二区三区在线视频 | 天天影视色香欲综合久久| 亚洲精品一区二区区别| 国产l精品国产亚洲区| 欧美肥老太交视频免费 | 久久96热在精品国产高清| av东京热一区二区三区| 国产又色又爽又黄又免费| 7878成人国产在线观看| 热久久这里超碰精品| 伊人二区| 国产内射一区二区三区| 国产成人无码专区| 亚洲精品国产av成拍色拍| 日韩亚洲国产综合高清| 无码?人妻?在线| 我要看亚洲黄色太黄一级黄| 久久伊人色AV天堂九九小黄鸭| 日日夜夜天天综合| 国产乱子伦精品免费无码专区| 91探花视频在线观看| 国产精品综合av一区二区国产馆| 中文字幕人乱码中文| 四虎国产精品成人| 熟女老骚91PORN九色|