<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      LCA:DeepSeek 長文本加速神器90% KV 緩存縮減 + 2.5 倍推理提速

      0
      分享至



      近日,琶洲實驗室、華南理工大學、蔻町(AIGCode)等單位科研團隊聯合提出潛在空間壓縮注意力(Latent-Condensed Attention,LCA),研究成果入選 ACL 2026。

      作為面向大語言模型長上下文場景的通用高效推理技術,LCA 突破傳統注意力機制效率瓶頸,以輕量化、無侵入、高性能的架構設計,為長文本大模型工業化部署提供通用解決方案。在 128K 超長上下文場景下,LCA 實現2.5 倍預填充加速、90% KV 緩存縮減、1.8 倍解碼延遲降低,同時保持原有性能。

      該技術可通用適配 MiniCPM、Qwen 等不同規模、不同注意力架構的大模型,具備極強的擴展性與落地性,能夠顯著降低長上下文大模型的硬件門檻、推理成本與部署難度,全面提升推理效率與用戶體驗。

      目前,LCA 論文與代碼已開源,歡迎學術界與產業界共同推進技術迭代與落地應用。



      • 論文標題:Latent-Condensed Transformer for Efficient Long Context Modeling
      • 論文鏈接:https://arxiv.org/abs/2604.12452
      • 代碼開源:https://github.com/bolixinyu/LCA
      • 作者:Zeng You, Yaofo Chen, Qiuwu Chen, Ying Sun, Shuhai Zhang, Yingjian Li, Yaowei Wang, Mingkui Tan
      • 機構:琶洲實驗室、華南理工大學、蔻町(AIGCode)等單位

      一、當大模型遇到長文本:兩大痛點待解決

      在使用 DeepSeek、Qwen 等大語言模型處理長文檔、進行深度對話時,我們常常遇到兩個令人頭疼的問題:

      • 痛點一:顯存占用太多。模型處理長文本時,需要存儲大量中間信息(KV 緩存,相當于 AI 的「記憶」),導致顯存占用隨文本長度線性增加。處理一篇萬字文檔?可能需要數 GB 顯存!這不僅對硬件要求高,也讓成本直線上升。
      • 痛點二:速度跑不起來。傳統的注意力機制計算量隨文本長度呈平方增長,就像讓一個人同時記住整本書再進行思考:不僅大腦負擔重(顯存占用大),思考速度也會明顯下降(計算復雜度高)。長文本處理變成「耐心測試」。

      二、現有方案為何「治標不治本」?

      為了應對這些挑戰,先前的研究提出了兩條技術路線:

      • 多頭潛在注意力(MLA):DeepSeek 采用的技術,其將 token 投影到低維潛在空間,顯著減少每個 token 的 KV 緩存大小。
      • 稀疏注意力:通過跳過部分 Attention 計算塊來降低計算復雜度。

      然而,現有方案往往「顧此失彼」。MLA 成功省下了顯存,卻未能擺脫計算量隨上下文平方級增長的困境;稀疏注意力雖能跳過冗余計算,卻依賴完整的 Q/K/V 矩陣。如果強行將兩者拼湊,就必須先把 MLA 壓縮的數據「解壓」還原,無異于「先壓縮再解壓」,白白浪費了 MLA 輕量化設計的紅利。

      在長上下文高效注意力領域,近期業界也提出了多項優秀方案,如 DeepSeek 發布的稀疏注意力(DSA)和 Kimi 提出的 KDA。但與這些方法相比,LCA 在技術設計上具有三個關鍵差異點:



      三、LCA:智能壓縮的新思路



      圖 1. LCA 架構示意圖

      為了解決上述問題,本文提出潛在空間壓縮注意力(Latent-Condensed Attention,LCA),如圖 1 所示。LCA 的核心思想是:直接在 MLA 的「壓縮空間」中進行信息精簡,而不是先解壓再篩選。

      1. 關鍵信息壓縮三步走

      • 第一步:智能分組

      將長文本分成多個小組,每個小組 16 個 token。最近 1024 個 token 會完整保留,確保最新信息不丟失細節。

      • 第二步:語義壓縮

      采用「智能加權」方法:根據當前查詢的重要性,對組內信息進行加權合并,突出最相關的內容。就像根據考試重點做筆記,重點內容更詳細。具體而言,對于每個分組內的語義潛在向量,LCA 采用加權池化的方式生成一個代表性向量:





      • 第三步:位置錨定(像在書中貼索引標簽)

      對于位置鍵向量,選擇每個組中注意力得分最高的 token 作為「位置錨點」:





      2. 保留細粒度局部上下文

      除了長距離上下文的壓縮外,LCA 還保留一個局部窗口(默認 1024 個 token)的完整潛在向量,確保最近的關鍵信息不被壓縮,維持模型對局部細節的敏感性。

      3. 理論保證:長度無關的誤差上界

      本文從理論上證明了 LCA 的近似誤差具有與上下文長度無關的均勻上界:





      四、實驗效果

      1. 效率提升



      圖 2. Triton 內核加速效果對比

      作者通過 Triton 進行了硬件友好的高效實現,相比 PyTorch 實現,在 64K 上下文能夠實現 24.4 倍加速。



      圖 3. 不同上下文長度下的效率表現

      在 128K 上下文長度下,高效 LCA 相比原始 MLA 實現了 2.5 倍預填充加速,減少了 90% KV 緩存,每 token 解碼延遲降低 1.8 倍。

      2. 長上下文性能保持



      長上下文基準測試性能對比

      在 LongBench-E、RULER 等長上下文基準測試中,LCA 在獲得顯著效率提升的同時,保持了與原始 MLA 相當的性能。其中 LongBench-E 性能與標準 MLA 幾乎持平,RULER 128K 結果上甚至略有提升。

      3. 短上下文任務無損



      短上下文標準任務性能對比

      在 MMLU、GSM8K、MBPP 等短上下文標準測試中,LCA 的性能與原始 MLA 幾乎相同,表明其壓縮機制不會損害模型的基礎能力。

      4. 兼容不同模型規模



      MiniCPM3-4B 模型擴展性驗證

      LCA 在 MiniCPM3-4B 模型上同樣有效,實現 2.2 倍預填充加速和 93% KV 緩存減少,驗證了其在不同規模模型上的通用性。

      5. 適配其他注意力變體



      GQA 架構適配驗證

      LCA 的設計不依賴于 MLA,可推廣到其他注意力機制。實驗表明,將其適配到分組查詢注意力(GQA)后,在 DeepSeek-R1-Distill-Qwen-7B 模型上仍能實現 3.25 倍推理加速和 93% 緩存減少。

      五、實際意義

      LCA 為長上下文 LLM 的實際部署提供了重要支持:

      • 減少部署成本:無需增加任何額外參數和模塊,即插即用替換現有模型中的 MLA/GQA 模塊。
      • 降低硬件門檻:減少 90% 的 KV 緩存意味著在相同顯存下可處理數倍長的上下文。
      • 提升響應速度:2.5 倍的預填充加速顯著改善用戶體驗,特別是在需要實時交互的應用中。
      • 保持模型能力:在獲得效率提升的同時,不犧牲模型在各類任務上的性能。

      六、總結

      LCA 通過直接在潛在空間進行上下文壓縮,巧妙地將 KV 緩存減少與計算復雜度降低統一到一個框架中。其解耦的語義-位置處理策略、理論保證的近似誤差界,以及廣泛的實驗驗證,使其成為長上下文高效建模的一個有力解決方案。這項工作已被 ACL 2026 接收,期待更多研究者與開發者在此基礎上進一步推動長上下文技術的發展。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      打起來了,以軍不宣而戰,2名巴西人身亡,內塔尼亞胡或被迫辭職

      打起來了,以軍不宣而戰,2名巴西人身亡,內塔尼亞胡或被迫辭職

      手里有讀
      2026-04-29 10:17:59
      達蒙-瓊斯正式達成認罪協議!最高刑期63個月 將于27年1月宣判

      達蒙-瓊斯正式達成認罪協議!最高刑期63個月 將于27年1月宣判

      羅說NBA
      2026-04-29 05:43:29
      別再吹天生美貌!朱珠真實原生臉曝光,整容前后差距一目了然

      別再吹天生美貌!朱珠真實原生臉曝光,整容前后差距一目了然

      小娛樂悠悠
      2026-04-27 09:21:13
      全世界最摳門首富!馬斯克登頂福布斯最不慈善榜單 其身家高達8390億美元

      全世界最摳門首富!馬斯克登頂福布斯最不慈善榜單 其身家高達8390億美元

      快科技
      2026-04-28 15:10:14
      美松口放行!委政府付費,馬杜羅夫婦終籌得律師費,3月停擺結束

      美松口放行!委政府付費,馬杜羅夫婦終籌得律師費,3月停擺結束

      芳芳歷史燴
      2026-04-28 16:03:20
      胡錫進否認自己有老干部病房vip待遇,但消炎藥卻用124元一盒的

      胡錫進否認自己有老干部病房vip待遇,但消炎藥卻用124元一盒的

      映射生活的身影
      2026-04-26 20:57:40
      廣東老漢囚禁50名女子于魚塘,6年后才被發現,結局如何

      廣東老漢囚禁50名女子于魚塘,6年后才被發現,結局如何

      莫地方
      2026-04-28 01:40:03
      至今,還有13個國家和中國沒有建交,他們都是誰?

      至今,還有13個國家和中國沒有建交,他們都是誰?

      深度報
      2026-04-22 22:30:57
      把人生濃縮成5句話,越讀越清醒,建議收藏

      把人生濃縮成5句話,越讀越清醒,建議收藏

      金沛的國學筆記
      2026-04-02 11:43:58
      演員片酬跌至三成,很多演員10年沒有戲拍,影視演員寒冬來了

      演員片酬跌至三成,很多演員10年沒有戲拍,影視演員寒冬來了

      廖四勇
      2026-04-29 03:33:22
      張廷玉擔任眾多要職,如果放在現在相當于什么職位?實在太厲害了

      張廷玉擔任眾多要職,如果放在現在相當于什么職位?實在太厲害了

      掠影后有感
      2026-04-29 10:08:10
      巴黎5比4拜仁:烈火與雷鳴

      巴黎5比4拜仁:烈火與雷鳴

      張佳瑋寫字的地方
      2026-04-29 12:28:38
      大器晚成!這3個生肖中年開掛,半生積累換來后半生富貴無憂!

      大器晚成!這3個生肖中年開掛,半生積累換來后半生富貴無憂!

      毅談生肖
      2026-04-29 11:19:59
      捂嘴也挨紅牌!申花10號 六邊形戰士要小心了

      捂嘴也挨紅牌!申花10號 六邊形戰士要小心了

      80后體育大蜀黍
      2026-04-29 11:33:50
      無才無德、裝瘋賣傻、一肚子草包,是誰捧紅了這些跳梁小丑?

      無才無德、裝瘋賣傻、一肚子草包,是誰捧紅了這些跳梁小丑?

      蹲坑看世界
      2026-04-22 23:00:21
      正式淘汰!4比0橫掃!4年1.95億頂薪泡湯

      正式淘汰!4比0橫掃!4年1.95億頂薪泡湯

      籃球教學論壇
      2026-04-28 18:35:22
      100個能救命的冷知識!關鍵時刻能保命,建議收藏

      100個能救命的冷知識!關鍵時刻能保命,建議收藏

      詩詞天地
      2026-04-22 14:06:22
      蛇吞象?生產殲-20的中國軍工巨頭174億就被收購了,用意耐人尋味

      蛇吞象?生產殲-20的中國軍工巨頭174億就被收購了,用意耐人尋味

      趣文說娛
      2026-04-23 19:52:36
      克魯尼領獎致辭:好萊塢的"反仇恨"敘事

      克魯尼領獎致辭:好萊塢的"反仇恨"敘事

      追星雷達站
      2026-04-28 11:20:23
      炎亞綸突然宣布要結婚了!IG表白現任:我動了真心

      炎亞綸突然宣布要結婚了!IG表白現任:我動了真心

      今古深日報
      2026-04-29 10:05:14
      2026-04-29 13:03:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12887文章數 142639關注度
      往期回顧 全部

      科技要聞

      夭折的造富神話,逼著中國AI回去賺"慢錢"

      頭條要聞

      男子強奸大嫂又殺人被執行死刑 大哥:談不上高興難過

      頭條要聞

      男子強奸大嫂又殺人被執行死刑 大哥:談不上高興難過

      體育要聞

      巴黎5-4拜仁夜:身價1.55億的“足壇笑話”,成了最硬的底牌

      娛樂要聞

      單依純演唱會再唱“區區三萬天”宣戰

      財經要聞

      多地藥店違規串換商品套刷醫保揭秘

      汽車要聞

      配32寸升降屏 新款別克世紀CENTURY上市53.99萬起

      態度原創

      游戲
      房產
      本地
      時尚
      手機

      《黑旗RE》完整地圖已出:原版DLC區域盡收其中!

      房產要聞

      紅利爆發!海南,沖到全國人口增量第4省!

      本地新聞

      用青花瓷的方式,打開西溪濕地

      劉浩存:明媚中綻放

      手機要聞

      谷歌Pixel 11系列手機Tensor G6芯片爆料:7核CPU

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产AV大陆精品一区二区三区| 热久久美女精品天天吊色| 超碰人人在线| 欧美精品99久久久| 一区二区三区视频| 欧美 日韩 国产 成人 在线观看| 国产高清在线| 欧美日韩国产亚洲人成| 老头老太性行交视频| 亚洲欧美日韩精品第一区| 熟妇人妻无码xxx视频| 人妻精品网站| 久久国产精品精品国产色婷婷| 久久成人电影| 天天躁夜夜躁狠狠综合| 国产极品美女到高潮| 亚洲暴爽av天天爽日日碰| 蜜桃av一区二区高潮久久精品| 中文字幕精品av一区二区五区| 亚洲成人色情| 91精品导航| 最新亚洲中文av在线不卡| 99ri国产在线观看| 黑丝美女被内射在线观看| 成人综合站| 国产又色又爽又刺激在线观看| 欧美激情在线播放| 91色色色| 亚洲欧美电影在线一区二区| 中文字幕第56页| 鄂尔多斯市| 亚洲大尺度视频在线播放| 在线 欧美 中文 亚洲 精品| 亚洲综合久久一区二区| www内射国产在线观看| 国产精品女同一区二区| 视频一区二区三区中文字幕狠狠| 亚洲图片在线| 午夜日逼| 日韩欧美国产丝袜视频| 人人妻人人爽人人爽|