![]()
![]()
在大模型時代,資源瓶頸不只是硬件問題,更是數學問題。
作者|王藝
3月25日美股開盤,存儲芯片板塊集體遭遇“黑色時刻”。
美光科技收跌4%,西部數據下跌4.4%,SK海力士跌去5.6%,閃迪更是重挫6.5%。一夜之間,HBM(高帶寬內存)概念股蒸發數百億美元市值。
一些外媒推測,這與谷歌最新發布的一篇論文和一段技術博客有關。
論文名叫《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》(下文簡稱TurboQuant)。
![]()
具體而言,TurboQuant通過一套全新的向量量化算法,將大語言模型推理過程中的KV緩存(Key-Value Cache)從16bit壓縮到3bit左右,實現了至少6倍的內存壓縮和最高8倍的注意力計算加速——而模型輸出質量幾乎不受影響。
消息傳開后,Cloudflare CEO Matthew Prince在社交媒體上將其形容為“谷歌的DeepSeek時刻”。一位獨立開發者也在Reddit上曬出了復現結果:基于PyTorch和自定義Triton kernel,在RTX 4090上用2bit精度跑Gemma 34B,輸出與未壓縮版本的模型逐字符一致。
![]()
“這就是谷歌的DeepSeek時刻,它在優化人工智能推理的運行速度、內存使用量、能耗以及多租戶利用率方面提供了更大的空間,Cloudflare 多個團隊都在致力于這些方面的工作。”圖源:X @Mattew Prince
![]()
TurboQuant算法無需硬件改動,可與現有的推理協議棧兼容——在H100處理器上,4bit注意力機制的內存壓縮率提高了5倍以上,速度提升高達8倍。 圖源:Reddit @NoShowJobsHQ
可以說,論文寫得“零損耗”,社區用代碼投了票。
但市場的過激反應和社區的狂熱背后,我們要問的是:這篇論文到底做了什么?它真的能撼動AI基礎設施的底層邏輯嗎?
1.KV Cache瓶頸與“內存墻”
要理解TurboQuant為何引發如此大的市場震動,必須先理解一個被越來越多人討論、卻仍然沒有被大眾真正看透的結構性矛盾:大模型推理階段的核心瓶頸,不是算力,而是內存。
當你和一個AI進行長對話時,模型并不會每說一個字都把之前所有上下文重新計算一遍。Transformer架構的做法是將之前已經計算過的Key和Value向量緩存起來,也就是所謂的KV Cache。它的作用類似于人類“邊說邊回顧”時的短期記憶。
問題在于,這份記憶會隨著對話長度線性膨脹。
以一個13B參數的模型為例,在NVIDIA A100 40GB顯卡上,模型權重本身大約占65%的顯存,而KV Cache可以輕松吃掉剩余30%以上的空間。當上下文長度從4K擴展到128K甚至百萬級別時,KV緩存所消耗的顯存往往會反超模型參數本身,成為推理階段最大的內存瓶頸。
更棘手的是,這個瓶頸不僅僅是“存不下”的問題,更是“搬不動”的問題。
大模型的推理過程,尤其是自回歸生成階段(即逐token生成文本的過程),本質上是內存受限(memory-bound)的工作負載。GPU的Tensor Core算力嚴重過剩,但數據從HBM搬運到SRAM的速度,也就是所謂的“內存帶寬”成為了真正的卡脖子因素。即便從A100升級到H100,FLOPS提升了超過2倍,但HBM帶寬和容量的增速遠遠跟不上。
這就是業界反復提及的“內存墻(Memory Wall)”。
過去幾年,行業解決內存問題的方案主要沿著三個方向展開:
第一是從“長度”上壓縮——滑動窗口注意力(Sliding Window Attention),只保留最近固定長度的記憶,扔掉太遠的上下文。這相當于給緩存的“長”設了上限。Kimi前段時間提出的Attention Residuals(注意力殘差),就是在用這個方法解決大模型注意力的問題。(詳見)
![]()
注意力殘差概述。(a)標準殘差:采用統一加法累加的方式進行的標準殘差連接;(b)全注意力殘差:每個層通過學習到的注意力權重有選擇地整合所有前一層的輸出;(c)塊注意力殘差:將層分組成塊,從而將內存消耗從 O(Ld) 減少到 O(Nd)。圖源:《Attention Residuals》
第二是從“高度”上壓縮——GQA(Grouped-Query Attention)、MQA(Multi-Query Attention)等架構改進,減少Key/Value頭的數量,降低每一層需要緩存的數據量。
![]()
MQA通過在多個注意力頭之間共享同一組鍵和值,同時為每個注意力頭維護不同的查詢,降低了計算復雜度和內存使用量;GQA是對MQA的一種優化,不是為每個查詢單獨計算鍵值表示,而是為每個組計算共享的鍵值表示。 圖源:VerticalServe Blogs 《Attention Variations — MQA vs GQA vs MHA vs MLA》
第三是從“精度”上壓縮——量化。把原本用16bit浮點數存儲的KV向量,壓縮到8bit、4bit甚至更低的整數表示。
![]()
量化就像把人工智能模型中使用的非常大的數字縮小成更小的數字,從而節省空間并提高運行速度,譬如不再使用超高精度的數字(浮點數),而是使用更簡單的數字(整數)。圖源:CloudThrill
量化看似是最直接的方案,但傳統量化方法有一個致命的隱形成本:元數據開銷。
幾乎所有傳統量化方法都需要為每一小塊數據額外存儲一組全精度的“縮放因子”(scale)和“零點偏移量”(zero-point),用于將低精度整數還原回近似的浮點值。在位寬較高(比如8bit)時,這些元數據占比很小,可以忽略。但當壓縮到4bit甚至更低時,這些“手續費”占總存儲的比例急劇攀升——標稱4bit,實際可能是5到6bit,壓縮效率被自己的開銷蠶食了一大截。
![]()
量化前后的模型權重分布,INT8精度下有256條網格線,INT4精度下卻只有16條網格線。圖源:Toutube @Tales Of Tensors 《LLM Quantization Explained: GPTQ, AWQ, QLoRA, GGUF and More》
更深層的問題是,很多量化方法是離線的——它們需要拿一批校準數據跑一遍,學習出最優的量化參數。但KV Cache是推理時實時生成的,每個用戶的對話內容都不一樣,根本沒有辦法提前做離線校準。
這就是TurboQuant真正要解決的問題。它要做的是從根本上消滅傳統量化的這些隱形稅,做一個真正適合在線、實時、零預處理場景的“向量壓縮器”。
2.TurboQuant到底做了什么?
TurboQuant的設計哲學,用一句話概括就是:結構優化>暴力壓縮。其核心思路可以用一個生活中的類比來理解:
想象你要把一堆形狀各異的衣服塞進行李箱。傳統方法是直接硬塞,塞不下就用力壓,還得在每個角落墊上填充物(元數據開銷)來保持形狀。而TurboQuant的做法是:先把所有衣服用同一種方式折疊整齊(隨機旋轉),然后按照統一的尺寸標準打包(最優標量量化),最后檢查一下有沒有折痕沒整理好,用一張薄紙墊一下(QJL殘差糾偏)。
具體來說,TurboQuant分為兩個階段:
第一階段:隨機旋轉+MSE最優量化
TurboQuant首先對輸入的高維向量做一次隨機旋轉變換。
在高維空間中,一個單位向量經過隨機旋轉后,其每個坐標分量的數值都會收斂到一個已知的概率分布——Beta分布(在高維下近似為正態分布)。更關鍵的是,不同坐標之間近似相互獨立。
這意味著,無論原始數據長什么樣,經過旋轉后,所有向量的所有坐標都服從同一個已知的分布。
既然分布已知且統一,就可以針對這個分布預先計算出數學上最優的量化方案——通過求解經典的Lloyd-Max量化器(本質是一維連續空間上的k-means問題),找到每個位寬下誤差最小的量化碼本。這些碼本可以提前算好、永久存儲,推理時只需查表,完全不需要針對具體數據做任何調整。
這就是TurboQuant消滅傳統量化“隱形開銷”的關鍵:不需要存儲任何scale、zero-point等元數據,因為分布本身是通過數學變換被“鎖定”的。每一個bit都被用于存儲真正的信息,沒有一絲浪費。
第二階段:QJL殘差糾偏
到這里,第一階段的壓縮已經非常高效了——如果我們只關心"還原出來的向量和原來像不像",它幾乎是最優解。但大模型在實際運算時,并不是把向量還原出來看看就完事了,而是要拿壓縮后的向量去做“內積運算”(可以粗略理解為“比較兩個向量有多相似”),這才是注意力機制的核心操作。而恰恰在這一步,問題出現了。
為什么內積很重要?因為Transformer的注意力機制的核心運算就是Query向量和Key向量的內積。如果量化后的內積估計有偏差,注意力分數就會系統性地偏移,最終導致模型輸出質量下降。
論文中給出了一個精確的例子:在1bit量化時,MSE最優量化器會給內積引入2/π≈0.637的乘性偏差——也就是說,所有內積都會被系統性地縮小約36%。這在高位寬時偏差會減小,但在極低位寬下是不可忽視的。
TurboQuant的解決方案極為巧妙:在總位寬預算b中,先用b-1位做MSE最優量化(把“主體信息”裝進去),然后對殘差(原始向量與量化重建之間的差)施加一個1bit的QJL(Quantized Johnson-Lindenstrauss)變換。QJL是同一團隊此前提出的一種基于隨機投影的1bit量化方法,其核心性質是:對內積估計是無偏的。
兩步疊加后,整個系統的內積估計就變成了無偏的,同時方差(誤差的隨機波動)也被控制在接近信息論極限的水平。
在TurboQuant的發布博客上,谷歌官方用幾個數據描述了這個新算法的有效性——“3bit無損”、“8×加速”、“6×壓縮”、“零預處理”。
![]()
TurboQuant 在計算鍵值緩存中的注意力邏輯值方面表現出顯著的性能提升,在各種位寬級別上均優于高度優化的JAX基線。圖源:Google Research Blog《TurboQuant: Redefining AI efficiency with extreme compression》
TurboQuant之所以在學術界引起巨大震動,不僅因為實驗結果好看,更因為它有嚴格的理論依據。
論文利用香農信息論中的失真率函數(distortion-rate function)和Yao’s minimax原理,證明了一個下界:對于任何量化算法,bbit量化的MSE不可能低于1/4^b。
而TurboQuant的MSE上界是(√3π/2)×(1/4^b)≈2.7×(1/4^b)。
也就是說,TurboQuant的失真率只比“宇宙中任何算法都不可能突破的理論極限”大約2.7倍。在低位寬下這個差距更小——1bit時僅為1.45倍。
![]()
TurboQuant的 MSE 失真率被證明最多不超過信息論下界 2/√3π ≈2.7,在比特寬度b=1時,TurboQuant的失真率僅比最優值低約1.45倍。圖源:《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》
這類向量壓縮問題本身就證明了很高質量的低比特解法是存在的。一旦市場意識到“KV Cache不是只能靠更大HBM暴力解決,而是存在接近理論極限的壓縮路線”,那么純粹依賴內存稀缺敘事抬估值的那部分溢價,就會更容易被壓縮。
3.“內存墻”被繞過了嗎?
TurboQuant論文發布后,市場給出了非常迅速的反應——前段時間因為HBM而大幅上漲的存儲芯片股(詳見《》)在今天應聲下跌。很多人認為AI芯片將不再需要那么大的內存了,HBM的敘事將走弱,AI芯片的“內存墻”也將被繞過。
![]()
存儲芯片三大原廠今日股價 圖源:Yahoo Finance
但是,「甲子光年」認為,將TurboQuant理解為“HBM需求將被大幅削弱”、自此就認為“內存墻將會被繞過”的判斷有點過了,這是一種過度線性的思考。
TurboQuant本質上解決的是:在既定顯存容量下,如何提升單位字節的有效信息密度。
它并不會減少訓練所需的HBM容量——訓練階段仍然需要高精度參數、梯度和優化器狀態;它主要優化的是推理階段的KV Cache開銷。而當模型規模繼續擴大、上下文長度繼續拉長時,總內存需求仍然會上升。
換句話說,TurboQuant更像是把“內存墻”向外推遠了一段距離,而不是把墻推倒。
真正被改變的,是邊際需求曲線。
過去幾年,HBM的投資邏輯建立在一個樸素假設上:模型越大、上下文越長、并發越高=顯存需求線性爆炸。
如果KV Cache可以在近理論極限的條件下壓縮到3-4bit,那么推理階段對HBM容量的敏感度就會顯著下降。需求曲線從“線性放大”變成“被壓縮后的線性放大”。
這會帶來兩個變化:
第一,單卡利用率提升。相同硬件可以服務更多請求,云廠商的推理成本下降,算力供給側的議價能力被削弱。
第二,容量升級節奏放緩。如果原本需要從80GB升級到120GB才能支持某種超長上下文,現在通過量化就能實現,那么硬件升級的迫切性會降低。
這并不是說大模型對內存的需求消失了,而是說單位算力對應的營收能力提高了。對于云廠商是利好,對于單純賣“更大容量”的供應鏈企業,則是估值體系的重估。
此外,「甲子光年」在多位技術專家交流后得到的信息是,大家一致認為,工程優化逐步吞噬硬件溢價將會是AI產業的一個長期趨勢。
早期大家拼模型規模,中期拼數據質量,現在越來越多的競爭發生在系統層和算法層——FlashAttention、PagedAttention、GQA、MoE、推理調度優化、算子融合……每一次看似微小的改進,都在降低對“暴力堆料”的依賴。
可以說,TurboQuant如果被大規模工程化落地,那么它代表的是一種范式轉移——從“用更貴的內存解決問題”轉向“用更聰明的數學解決問題”。
整個AI基礎設施鏈條,它也意味著軟件層的價值占比提升。
當壓縮算法接近信息論極限時,硬件差異化的空間被部分侵蝕。真正的競爭點可能從“誰的HBM更大”轉向“誰的系統棧整合得更好、調度更智能、算法更先進”。
這也是為什么這篇論文被一些人稱為“DeepSeek時刻”——它像DeepSeek對模型訓練成本的沖擊一樣,對推理階段的資源結構提出了挑戰。
TurboQuant未必會讓HBM失去價值,也不會讓GPU需求崩塌。但它釋放了一個強烈信號——在大模型時代,資源瓶頸不只是硬件問題,更是數學問題。當壓縮效率逼近信息論極限時,我們看到的不是“更少的算力”,而是“更高的單位算力產出”。
對于投資者而言,這意味著必須重新評估產業鏈中“誰在賣稀缺性,誰在賣效率”;對于工程師而言,這意味著一個更具挑戰性的時代:優化空間正在從參數規模,轉向結構設計與信息表達。
而對于整個AI行業而言,這或許只是一個開始。
(封面圖來源:Google Research)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.