![]()
隨著 LLM 向 1M 上下文演進(jìn),KV cache(鍵值緩存)已成為制約推理服務(wù)效率的核心瓶頸。自回歸生成的特性使得模型必須存儲(chǔ)歷史 token 的 key-value 狀態(tài)(即 KV cache)以避免重復(fù)計(jì)算,但 KV cache 的顯存占用隨著上下文長度的增長而膨脹,帶來顯著的內(nèi)存瓶頸。
過去兩年,關(guān)于 KV cache 的優(yōu)化工作爆炸式增長,包括調(diào)度、遷移、壓縮等策略層出不窮。然而,現(xiàn)有綜述主要聚焦于 LLM 推理或服務(wù)的整體效率,大多僅將 KV cache 作為其中一個(gè)子模塊作簡要討論。
近期,來自墨爾本大學(xué)和華中科技大學(xué)的研究者們發(fā)布了一篇深度綜述,從MLSys 的思維出發(fā),用一套新穎的「時(shí)間 - 空間 - 結(jié)構(gòu)」系統(tǒng)行為視角對(duì) KV cache 優(yōu)化方法進(jìn)行了系統(tǒng)性梳理與深入分析,并將相關(guān)資源整理成了持續(xù)維護(hù)的 Awesome 資源庫,方便研究者與從業(yè)人員快速定位與落地。
![]()
- 論文地址: https://doi.org/10.36227/techrxiv.176046306.66521015/v3
- 項(xiàng)目地址: https://github.com/jjiantong/Awesome-KV-Cache-Optimization
什么是「 sKis」?
為了提供更聚焦的視角和理解,作者們首先在綜述中定義了sKis的邊界:在推理服務(wù)階段,以 KV cache 為核心優(yōu)化對(duì)象,在不依賴模型重訓(xùn)或結(jié)構(gòu)修改的前提下,提升吞吐、延遲等核心系統(tǒng)指標(biāo)。
![]()
從「系統(tǒng)行為」看 KV Cache
聚焦于 sKis,該綜述創(chuàng)新性地提出以系統(tǒng)行為的視角來組織 KV cache 優(yōu)化技術(shù):不是按具體流程、框架、算法來劃分,而是按優(yōu)化策略在系統(tǒng)中發(fā)生的時(shí)間、空間、結(jié)構(gòu)三個(gè)維度的行為來劃分,從而更容易對(duì)齊工程實(shí)現(xiàn)與組合策略。
- 執(zhí)行與調(diào)度(時(shí)間維度):KV 什么時(shí)候被訪問和計(jì)算?該分類關(guān)注執(zhí)行過程與調(diào)度。例如設(shè)計(jì)以 KV 為中心的調(diào)度策略,采用流水線來掩蓋延遲,或者根據(jù)不同硬件的特性適配操作等。
- 放置與遷移(空間維度):KV 放在哪里、如何遷移?該分類關(guān)注數(shù)據(jù)的存儲(chǔ)。例如在 GPU、CPU、SSD 構(gòu)成的存儲(chǔ)層級(jí)中如何使熱點(diǎn) KV 留在 GPU 顯存中,或者在分布式或異構(gòu)的計(jì)算設(shè)備中設(shè)計(jì)遷移策略等。
- 表示與留存(結(jié)構(gòu)維度):KV 長什么樣?該分類關(guān)注數(shù)據(jù)表示。這是目前最擁擠的賽道,包括量化、驅(qū)逐等論文密集的子領(lǐng)域,旨在直接減少 KV cache 的物理體積。
![]()
基于上述三個(gè)維度,該綜述將現(xiàn)有工作歸納為 7 個(gè)二級(jí)類別,具體包括:以 KV 為中心的調(diào)度(KVS)、流水線與重疊(OVLP)、硬件感知的執(zhí)行(HAE)、跨內(nèi)存層級(jí)的 KV 編排(MHO)、跨計(jì)算設(shè)備的 KV 編排(CDO)、KV cache 壓縮(KVCC)、KV cache 留存管理(KVRM)。
該論文不僅詳細(xì)梳理了每個(gè)維度下的不同類型和技術(shù)方法,還為每一類提煉了關(guān)鍵要點(diǎn)、局限與權(quán)衡,給出了可落地的實(shí)用指導(dǎo)。
![]()
深度洞察與開放挑戰(zhàn)
這篇綜述最有價(jià)值的部分之一,在于作者們對(duì)百余篇論文進(jìn)行了全局交叉分析,從而歸納了7 大關(guān)鍵觀察,并引發(fā)了6 大開放挑戰(zhàn)。
首先,作者們對(duì)文獻(xiàn)進(jìn)行了跨行為共現(xiàn)分析,以揭示不同維度的 KV 行為之間的內(nèi)在聯(lián)系和協(xié)同模式;此外,作者們深入分析了KV 行為和優(yōu)化目標(biāo)的作用關(guān)系,并統(tǒng)計(jì)了文獻(xiàn)中對(duì)相關(guān)優(yōu)化指標(biāo)的實(shí)際關(guān)注情況。
![]()
![]()
基于以上兩類交叉分析,作者們揭示了當(dāng)前領(lǐng)域的7 大關(guān)鍵觀察,例如什么組合是最常見的協(xié)同模式?結(jié)構(gòu)維度(如量化)雖然論文最多,為什么往往淪為系統(tǒng)中的「孤島」?
基于關(guān)鍵觀察,作者們進(jìn)一步提煉了6 大開放挑戰(zhàn),例如在追求效率的同時(shí),我們雖然常常會(huì)關(guān)注到對(duì)其質(zhì)量的影響,但是否往往忽視了可信度(trustworthiness)的隱形崩塌?該綜述中對(duì)每一個(gè)觀察和挑戰(zhàn)都給出了具體的分析和思路,期待能激發(fā)社區(qū)向著更加高效與可信的 LLM 服務(wù)系統(tǒng)的持續(xù)探索!
資源分享:Awesome-KV-Cache-Optimization 資源庫
為了方便社區(qū)追蹤這一飛速發(fā)展的領(lǐng)域的最新進(jìn)展,論文作者同步維護(hù)了一個(gè) Awesome 風(fēng)格的資源庫,收錄并持續(xù)更新 sKis 領(lǐng)域的最新論文和代碼實(shí)現(xiàn)。希望這個(gè)資源庫能讓你少走彎路!
- 地址:https://github.com/jjiantong/Awesome-KV-Cache-Optimization
如果你正在做 LLM Infra、模型壓縮或者高性能計(jì)算等相關(guān)方向,歡迎在 GitHub 上 star 支持,或者來倉庫一起補(bǔ)全與更新!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.