網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

最新綜述用「時(shí)-空-構(gòu)」三維視角解構(gòu)KV Cache系統(tǒng)級(jí)優(yōu)化

2026-01-16 14:30:42　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

隨著 LLM 向 1M 上下文演進(jìn)，KV cache（鍵值緩存）已成為制約推理服務(wù)效率的核心瓶頸。自回歸生成的特性使得模型必須存儲(chǔ)歷史 token 的 key-value 狀態(tài)（即 KV cache）以避免重復(fù)計(jì)算，但 KV cache 的顯存占用隨著上下文長度的增長而膨脹，帶來顯著的內(nèi)存瓶頸。

過去兩年，關(guān)于 KV cache 的優(yōu)化工作爆炸式增長，包括調(diào)度、遷移、壓縮等策略層出不窮。然而，現(xiàn)有綜述主要聚焦于 LLM 推理或服務(wù)的整體效率，大多僅將 KV cache 作為其中一個(gè)子模塊作簡要討論。

近期，來自墨爾本大學(xué)和華中科技大學(xué)的研究者們發(fā)布了一篇深度綜述，從MLSys 的思維出發(fā)，用一套新穎的「時(shí)間 - 空間 - 結(jié)構(gòu)」系統(tǒng)行為視角對(duì) KV cache 優(yōu)化方法進(jìn)行了系統(tǒng)性梳理與深入分析，并將相關(guān)資源整理成了持續(xù)維護(hù)的 Awesome 資源庫，方便研究者與從業(yè)人員快速定位與落地。

論文地址: https://doi.org/10.36227/techrxiv.176046306.66521015/v3
項(xiàng)目地址: https://github.com/jjiantong/Awesome-KV-Cache-Optimization

什么是「 sKis」？

為了提供更聚焦的視角和理解，作者們首先在綜述中定義了sKis的邊界：在推理服務(wù)階段，以 KV cache 為核心優(yōu)化對(duì)象，在不依賴模型重訓(xùn)或結(jié)構(gòu)修改的前提下，提升吞吐、延遲等核心系統(tǒng)指標(biāo)。

從「系統(tǒng)行為」看 KV Cache

聚焦于 sKis，該綜述創(chuàng)新性地提出以系統(tǒng)行為的視角來組織 KV cache 優(yōu)化技術(shù)：不是按具體流程、框架、算法來劃分，而是按優(yōu)化策略在系統(tǒng)中發(fā)生的時(shí)間、空間、結(jié)構(gòu)三個(gè)維度的行為來劃分，從而更容易對(duì)齊工程實(shí)現(xiàn)與組合策略。

執(zhí)行與調(diào)度（時(shí)間維度）：KV 什么時(shí)候被訪問和計(jì)算？該分類關(guān)注執(zhí)行過程與調(diào)度。例如設(shè)計(jì)以 KV 為中心的調(diào)度策略，采用流水線來掩蓋延遲，或者根據(jù)不同硬件的特性適配操作等。
放置與遷移（空間維度）：KV 放在哪里、如何遷移？該分類關(guān)注數(shù)據(jù)的存儲(chǔ)。例如在 GPU、CPU、SSD 構(gòu)成的存儲(chǔ)層級(jí)中如何使熱點(diǎn) KV 留在 GPU 顯存中，或者在分布式或異構(gòu)的計(jì)算設(shè)備中設(shè)計(jì)遷移策略等。
表示與留存（結(jié)構(gòu)維度）：KV 長什么樣？該分類關(guān)注數(shù)據(jù)表示。這是目前最擁擠的賽道，包括量化、驅(qū)逐等論文密集的子領(lǐng)域，旨在直接減少 KV cache 的物理體積。

基于上述三個(gè)維度，該綜述將現(xiàn)有工作歸納為 7 個(gè)二級(jí)類別，具體包括：以 KV 為中心的調(diào)度（KVS）、流水線與重疊（OVLP）、硬件感知的執(zhí)行（HAE）、跨內(nèi)存層級(jí)的 KV 編排（MHO）、跨計(jì)算設(shè)備的 KV 編排（CDO）、KV cache 壓縮（KVCC）、KV cache 留存管理（KVRM）。

該論文不僅詳細(xì)梳理了每個(gè)維度下的不同類型和技術(shù)方法，還為每一類提煉了關(guān)鍵要點(diǎn)、局限與權(quán)衡，給出了可落地的實(shí)用指導(dǎo)。

深度洞察與開放挑戰(zhàn)

這篇綜述最有價(jià)值的部分之一，在于作者們對(duì)百余篇論文進(jìn)行了全局交叉分析，從而歸納了7 大關(guān)鍵觀察，并引發(fā)了6 大開放挑戰(zhàn)。

首先，作者們對(duì)文獻(xiàn)進(jìn)行了跨行為共現(xiàn)分析，以揭示不同維度的 KV 行為之間的內(nèi)在聯(lián)系和協(xié)同模式；此外，作者們深入分析了KV 行為和優(yōu)化目標(biāo)的作用關(guān)系，并統(tǒng)計(jì)了文獻(xiàn)中對(duì)相關(guān)優(yōu)化指標(biāo)的實(shí)際關(guān)注情況。

基于以上兩類交叉分析，作者們揭示了當(dāng)前領(lǐng)域的7 大關(guān)鍵觀察，例如什么組合是最常見的協(xié)同模式？結(jié)構(gòu)維度（如量化）雖然論文最多，為什么往往淪為系統(tǒng)中的「孤島」？

基于關(guān)鍵觀察，作者們進(jìn)一步提煉了6 大開放挑戰(zhàn)，例如在追求效率的同時(shí)，我們雖然常常會(huì)關(guān)注到對(duì)其質(zhì)量的影響，但是否往往忽視了可信度（trustworthiness）的隱形崩塌？該綜述中對(duì)每一個(gè)觀察和挑戰(zhàn)都給出了具體的分析和思路，期待能激發(fā)社區(qū)向著更加高效與可信的 LLM 服務(wù)系統(tǒng)的持續(xù)探索！

資源分享：Awesome-KV-Cache-Optimization 資源庫

為了方便社區(qū)追蹤這一飛速發(fā)展的領(lǐng)域的最新進(jìn)展，論文作者同步維護(hù)了一個(gè) Awesome 風(fēng)格的資源庫，收錄并持續(xù)更新 sKis 領(lǐng)域的最新論文和代碼實(shí)現(xiàn)。希望這個(gè)資源庫能讓你少走彎路！

地址：https://github.com/jjiantong/Awesome-KV-Cache-Optimization

如果你正在做 LLM Infra、模型壓縮或者高性能計(jì)算等相關(guān)方向，歡迎在 GitHub 上 star 支持，或者來倉庫一起補(bǔ)全與更新！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.