網易首頁 > 網易號 > 正文申請入駐

LCA：DeepSeek 長文本加速神器90% KV 緩存縮減 + 2.5 倍推理提速

2026-04-29 10:56:51　來源: 機器之心Pro

河北舉報

分享至

近日，琶洲實驗室、華南理工大學、蔻町（AIGCode）等單位科研團隊聯合提出潛在空間壓縮注意力（Latent-Condensed Attention，LCA），研究成果入選 ACL 2026。

作為面向大語言模型長上下文場景的通用高效推理技術，LCA 突破傳統注意力機制效率瓶頸，以輕量化、無侵入、高性能的架構設計，為長文本大模型工業化部署提供通用解決方案。在 128K 超長上下文場景下，LCA 實現2.5 倍預填充加速、90% KV 緩存縮減、1.8 倍解碼延遲降低，同時保持原有性能。

該技術可通用適配 MiniCPM、Qwen 等不同規模、不同注意力架構的大模型，具備極強的擴展性與落地性，能夠顯著降低長上下文大模型的硬件門檻、推理成本與部署難度，全面提升推理效率與用戶體驗。

目前，LCA 論文與代碼已開源，歡迎學術界與產業界共同推進技術迭代與落地應用。

論文標題：Latent-Condensed Transformer for Efficient Long Context Modeling
論文鏈接：https://arxiv.org/abs/2604.12452
代碼開源：https://github.com/bolixinyu/LCA
作者：Zeng You, Yaofo Chen, Qiuwu Chen, Ying Sun, Shuhai Zhang, Yingjian Li, Yaowei Wang, Mingkui Tan
機構：琶洲實驗室、華南理工大學、蔻町（AIGCode）等單位

一、當大模型遇到長文本：兩大痛點待解決

在使用 DeepSeek、Qwen 等大語言模型處理長文檔、進行深度對話時，我們常常遇到兩個令人頭疼的問題：

痛點一：顯存占用太多。模型處理長文本時，需要存儲大量中間信息（KV 緩存，相當于 AI 的「記憶」），導致顯存占用隨文本長度線性增加。處理一篇萬字文檔？可能需要數 GB 顯存！這不僅對硬件要求高，也讓成本直線上升。
痛點二：速度跑不起來。傳統的注意力機制計算量隨文本長度呈平方增長，就像讓一個人同時記住整本書再進行思考：不僅大腦負擔重（顯存占用大），思考速度也會明顯下降（計算復雜度高）。長文本處理變成「耐心測試」。

二、現有方案為何「治標不治本」？

為了應對這些挑戰，先前的研究提出了兩條技術路線：

多頭潛在注意力（MLA）：DeepSeek 采用的技術，其將 token 投影到低維潛在空間，顯著減少每個 token 的 KV 緩存大小。
稀疏注意力：通過跳過部分 Attention 計算塊來降低計算復雜度。

然而，現有方案往往「顧此失彼」。MLA 成功省下了顯存，卻未能擺脫計算量隨上下文平方級增長的困境；稀疏注意力雖能跳過冗余計算，卻依賴完整的 Q/K/V 矩陣。如果強行將兩者拼湊，就必須先把 MLA 壓縮的數據「解壓」還原，無異于「先壓縮再解壓」，白白浪費了 MLA 輕量化設計的紅利。

在長上下文高效注意力領域，近期業界也提出了多項優秀方案，如 DeepSeek 發布的稀疏注意力（DSA）和 Kimi 提出的 KDA。但與這些方法相比，LCA 在技術設計上具有三個關鍵差異點：

三、LCA：智能壓縮的新思路

圖 1. LCA 架構示意圖

為了解決上述問題，本文提出潛在空間壓縮注意力（Latent-Condensed Attention，LCA），如圖 1 所示。LCA 的核心思想是：直接在 MLA 的「壓縮空間」中進行信息精簡，而不是先解壓再篩選。

1. 關鍵信息壓縮三步走

第一步：智能分組

將長文本分成多個小組，每個小組 16 個 token。最近 1024 個 token 會完整保留，確保最新信息不丟失細節。

第二步：語義壓縮

采用「智能加權」方法：根據當前查詢的重要性，對組內信息進行加權合并，突出最相關的內容。就像根據考試重點做筆記，重點內容更詳細。具體而言，對于每個分組內的語義潛在向量，LCA 采用加權池化的方式生成一個代表性向量：

第三步：位置錨定（像在書中貼索引標簽）

對于位置鍵向量，選擇每個組中注意力得分最高的 token 作為「位置錨點」：

2. 保留細粒度局部上下文

除了長距離上下文的壓縮外，LCA 還保留一個局部窗口（默認 1024 個 token）的完整潛在向量，確保最近的關鍵信息不被壓縮，維持模型對局部細節的敏感性。

3. 理論保證：長度無關的誤差上界

本文從理論上證明了 LCA 的近似誤差具有與上下文長度無關的均勻上界：

四、實驗效果

1. 效率提升

圖 2. Triton 內核加速效果對比

作者通過 Triton 進行了硬件友好的高效實現，相比 PyTorch 實現，在 64K 上下文能夠實現 24.4 倍加速。

圖 3. 不同上下文長度下的效率表現

在 128K 上下文長度下，高效 LCA 相比原始 MLA 實現了 2.5 倍預填充加速，減少了 90% KV 緩存，每 token 解碼延遲降低 1.8 倍。

2. 長上下文性能保持

長上下文基準測試性能對比

在 LongBench-E、RULER 等長上下文基準測試中，LCA 在獲得顯著效率提升的同時，保持了與原始 MLA 相當的性能。其中 LongBench-E 性能與標準 MLA 幾乎持平，RULER 128K 結果上甚至略有提升。

3. 短上下文任務無損

短上下文標準任務性能對比

在 MMLU、GSM8K、MBPP 等短上下文標準測試中，LCA 的性能與原始 MLA 幾乎相同，表明其壓縮機制不會損害模型的基礎能力。

4. 兼容不同模型規模

MiniCPM3-4B 模型擴展性驗證

LCA 在 MiniCPM3-4B 模型上同樣有效，實現 2.2 倍預填充加速和 93% KV 緩存減少，驗證了其在不同規模模型上的通用性。

5. 適配其他注意力變體

GQA 架構適配驗證

LCA 的設計不依賴于 MLA，可推廣到其他注意力機制。實驗表明，將其適配到分組查詢注意力（GQA）后，在 DeepSeek-R1-Distill-Qwen-7B 模型上仍能實現 3.25 倍推理加速和 93% 緩存減少。

五、實際意義

LCA 為長上下文 LLM 的實際部署提供了重要支持：

減少部署成本：無需增加任何額外參數和模塊，即插即用替換現有模型中的 MLA/GQA 模塊。
降低硬件門檻：減少 90% 的 KV 緩存意味著在相同顯存下可處理數倍長的上下文。
提升響應速度：2.5 倍的預填充加速顯著改善用戶體驗，特別是在需要實時交互的應用中。
保持模型能力：在獲得效率提升的同時，不犧牲模型在各類任務上的性能。

六、總結

LCA 通過直接在潛在空間進行上下文壓縮，巧妙地將 KV 緩存減少與計算復雜度降低統一到一個框架中。其解耦的語義-位置處理策略、理論保證的近似誤差界，以及廣泛的實驗驗證，使其成為長上下文高效建模的一個有力解決方案。這項工作已被 ACL 2026 接收，期待更多研究者與開發者在此基礎上進一步推動長上下文技術的發展。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.