<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      微軟TurboQuant把AI內存壓縮玩成幾何題,推理成本砍半

      0
      分享至

      現代AI模型有個隱形殺手:不是算力不夠,是內存先崩了。每次大模型處理長文本,都要在KV緩存(鍵值緩存,模型推理時的短期記憶)里存下海量中間數據。上下文越長,這塊"草稿紙"就越膨脹,最終卡住的不是GPU算力,而是內存帶寬。

      2025年底,微軟亞洲研究院一篇論文讓圈內人眼前一亮。TurboQuant——這個聽起來像渦輪增壓的算法——號稱能把大模型推理時的KV緩存壓縮到極致,精度損失卻微乎其微。但真正讓人上頭的是它的實現方式:沒搞復雜的矩陣運算,而是把高維數據當成幾何圖形來"折疊"。

      這篇被Medium付費墻擋住的技術解讀,核心就一句話:用旋轉和縮放,把信息密度塞進更小的空間。

      為什么KV緩存成了新瓶頸

      大模型的推理過程分兩步:預填充(prefill)和解碼(decoding)。預填充階段,模型一口氣讀完整段輸入,生成第一詞;解碼階段則逐個吐字,每步都要回顧之前所有上下文。這個"回顧"就靠KV緩存實現——它存著每層注意力機制的歷史鍵值對。

      以Llama 3.1 405B為例,處理128K上下文時,單序列的KV緩存峰值可達約640GB。這還是batch size為1的情況。實際服務中,并發請求會讓這個數字乘以幾十。相比之下,模型權重本身"只有"約810GB(FP8精度),卻可以通過量化靜態壓縮。KV緩存是動態的、隨序列長度線性增長的,傳統量化方法對它束手無策。

      行業此前的解法大致三類:稀疏化(扔掉不重要的token)、蒸餾(訓練小模型模仿大模型)、以及各類量化嘗試。但量化KV緩存有個死穴:不同層的數值分布差異極大,同一套縮放參數用在第1層和第80層,效果天差地別。

      幾何直覺:把高維點云當成可旋轉的物體

      TurboQuant的突破在于換了個視角。作者團隊發現,KV緩存的每個token表示可以看作高維空間中的一個點。這些點不是隨機分布的——它們沿著某些方向高度拉伸,另一些方向卻擠成一團。傳統量化像用固定尺寸的網格去套變形的氣球,必然有些地方太松、有些地方太緊。

      「我們觀察到,KV緩存的協方差矩陣往往呈現低秩結構。」論文一作在技術博客中寫道。翻譯成人話:這些高維點云其實"趴"在一個低維子空間里,就像一張紙折成復雜形狀后,仍能被壓回平面。

      TurboQuant的做法是:先找到這個子空間的方向(通過快速PCA近似),然后把整個點云旋轉對齊,讓信息集中在少數維度上。接著按維度重要性分配不同的量化精度——重要維度給4bit甚至8bit,次要維度壓到2bit或1bit。最后再把點云轉回原坐標系。

      整個過程只涉及兩次旋轉矩陣乘法(正變換和逆變換),計算開銷極低。但幾何上的對齊讓量化誤差大幅下降:原本需要統一用4bit保存的數據,現在可以用混合精度達到同等質量,總比特數砍半。

      工程細節:為什么"旋轉"比"縮放"更關鍵

      量化領域有個經典技巧:對數據做per-channel或per-token縮放,讓數值分布對齊到量化網格。TurboQuant也用了縮放,但把旋轉放在更核心的位置。作者對比實驗顯示,只做縮放(類似SmoothQuant的思路)在KV緩存上效果有限,因為不同頭的數值分布方向差異太大。

      旋轉解決了"方向不對"的問題。具體來說,TurboQuant為每層、每頭的KV緩存單獨計算旋轉矩陣——不是全局共享,而是在線自適應。計算成本通過隨機采樣部分token來壓低,而非用全量數據做SVD。

      一個反直覺的設計:旋轉矩陣本身也需要存儲和傳輸。但作者證明,當壓縮比超過一定閾值(約2:1),旋轉矩陣的額外開銷就被節省下來的KV緩存空間覆蓋。在典型配置下,TurboQuant把KV緩存從4bit壓到2bit混合精度,端到端加速約1.8倍,精度損失小于0.5%。

      與同類方案的對比:不是取代,是補強

      TurboQuant不是第一個打KV緩存主意的方案。2024年的H2O、StreamingLLM等稀疏化方法,通過動態丟棄遠距離token來減容;同年的KIVI則嘗試對KV緩存做分組量化。但這些方法要么犧牲長程依賴能力,要么在超長上下文上精度崩壞。

      TurboQuant選擇了一條更保守也更普適的路:不扔數據,只壓縮表示。它與稀疏化方法正交——可以先旋轉壓縮,再疊加H2O的token淘汰。實驗顯示,這種組合在256K上下文上仍能保持92%以上的原始精度,而基線方法早已跌破可用閾值。

      另一個隱形優勢:TurboQuant對硬件友好。旋轉操作在現代GPU上可以用融合內核(fused kernel)高效實現,無需復雜的內存重排。相比之下,某些基于非結構化稀疏的方案,雖然理論壓縮比更高,實際推理時卻被不規則內存訪問拖慢。

      落地前景:誰最需要這項技術

      從論文披露的信息看,TurboQuant已在微軟內部部分推理服務中試點。最直觀的受益場景是長文檔處理——法律合同分析、科研文獻綜述、代碼庫理解等任務,上下文動輒十萬token起步。在這些場景下,KV緩存壓縮直接轉化為更低的延遲和更高的并發。

      邊緣設備是另一個潛在戰場。論文提到,在單卡A100上運行70B模型時,TurboQuant讓最大支持上下文從32K擴展到64K,無需額外顯存。對于想在本地跑大模型的開發者,這意味著"能跑"和"不能跑"的區別。

      但作者也坦承局限:TurboQuant對極短序列(<1K)幾乎無收益,旋轉開銷反而拖慢速度;對需要頻繁重置上下文的交互式應用(如多輪對話中的歷史截斷),自適應旋轉的攤銷成本也需要重新計算。

      技術社區的反應分化明顯。Hugging Face一位貢獻者在討論帖中寫道:「終于有人把幾何直覺帶回量化了,而不是堆砌更復雜的優化目標。」但也有聲音質疑旋轉矩陣的在線計算成本,認為在極高并發場景下可能成為新瓶頸。

      論文最后留下一個開放問題:這種幾何壓縮框架能否擴展到模型權重本身,實現訓練-推理一體化的極致壓縮?作者沒有給出答案,但代碼倉庫的README里藏著一句備注:「實驗中的全量化方案將在后續工作中討論。」

      當行業還在爭論4bit權重量化是否夠用的時候,TurboQuant已經證明:推理階段的動態數據,還有巨大的壓縮空間等待挖掘。而鑰匙,就藏在那些高維點云的幾何形狀里。

      如果旋轉矩陣的計算成本能再降一個數量級,我們是否會看到實時自適應的"流體量化"——每個token的表示精度都根據上下文動態調整?那將是另一場關于效率與精度的重新談判。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美伊停火后伊朗導彈射向以色列

      美伊停火后伊朗導彈射向以色列

      財聯社
      2026-04-08 08:27:09
      全網淚目!張雪峰團隊正式復播,人氣爆棚

      全網淚目!張雪峰團隊正式復播,人氣爆棚

      雷科技
      2026-04-08 10:36:59
      此人屠殺百萬民眾,卻被專家吹捧為千古完人、民族英雄,實在可笑

      此人屠殺百萬民眾,卻被專家吹捧為千古完人、民族英雄,實在可笑

      長風文史
      2026-04-07 20:53:07
      原來陳麗華長子是他,北大畢業,31歲接手家業,他才是富華掌舵人

      原來陳麗華長子是他,北大畢業,31歲接手家業,他才是富華掌舵人

      冷紫葉
      2026-04-07 15:26:07
      江蘇百畝大蔥被哄搶,場面宛如蝗蟲過境,戶主哭訴太慘了,已報警

      江蘇百畝大蔥被哄搶,場面宛如蝗蟲過境,戶主哭訴太慘了,已報警

      眼光很亮
      2026-04-07 13:53:06
      悲催!年薪50萬的女生婚事,因婚檢鬧到取消婚禮,起因是她留過洋

      悲催!年薪50萬的女生婚事,因婚檢鬧到取消婚禮,起因是她留過洋

      火山詩話
      2026-04-08 07:10:15
      殺人誅心!拜仁2-1客勝皇馬,主帥孔帕尼賽后發言暗藏捧殺玄機!

      殺人誅心!拜仁2-1客勝皇馬,主帥孔帕尼賽后發言暗藏捧殺玄機!

      田先生籃球
      2026-04-08 09:06:27
      王立群教授:用權力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價還價...

      王立群教授:用權力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價還價...

      深度知局
      2026-04-08 07:41:14
      換奧巴馬,這兩名美軍F-15飛行員幾乎必死

      換奧巴馬,這兩名美軍F-15飛行員幾乎必死

      移光幻影
      2026-04-07 13:17:28
      陳光標變現大勞捐千萬后續!曝嫣然已退款,原因炸裂,果然有貓膩

      陳光標變現大勞捐千萬后續!曝嫣然已退款,原因炸裂,果然有貓膩

      阿鳧愛吐槽
      2026-04-08 01:06:52
      因中國工人待遇問題,巴西將比亞迪列入“恥辱名單”

      因中國工人待遇問題,巴西將比亞迪列入“恥辱名單”

      互聯網大觀
      2026-04-07 15:43:15
      凱恩一戰3大神跡,姆巴佩建功難救主,拜仁2-1皇馬破不勝魔咒

      凱恩一戰3大神跡,姆巴佩建功難救主,拜仁2-1皇馬破不勝魔咒

      釘釘陌上花開
      2026-04-08 04:54:56
      國際油價大跌,美油跌超17%

      國際油價大跌,美油跌超17%

      每日經濟新聞
      2026-04-08 07:37:46
      太猛了,萬科迎來了一場堪稱史詩級的大清算

      太猛了,萬科迎來了一場堪稱史詩級的大清算

      流蘇晚晴
      2026-04-07 18:34:27
      石女征婚!無固定工作、多弟妹待幫扶!網友:這種是debuff加滿吧

      石女征婚!無固定工作、多弟妹待幫扶!網友:這種是debuff加滿吧

      火山詩話
      2026-04-08 07:39:43
      真夠狠!以色列提前動手大殺四方,伊朗損失慘重

      真夠狠!以色列提前動手大殺四方,伊朗損失慘重

      史政先鋒
      2026-04-07 21:03:17
      湖人提前一節半投降!三連敗后西部第四已危矣 更衣室矛盾還顯現

      湖人提前一節半投降!三連敗后西部第四已危矣 更衣室矛盾還顯現

      顏小白的籃球夢
      2026-04-08 12:35:29
      WTI原油期貨跌幅擴大至19%

      WTI原油期貨跌幅擴大至19%

      澎湃新聞
      2026-04-08 07:53:06
      A股:周三,放量大漲,釋放了兩個信號,股市即將進入尾聲了?

      A股:周三,放量大漲,釋放了兩個信號,股市即將進入尾聲了?

      明心
      2026-04-08 11:01:23
      經伊朗這一戰,中美之間至少50年內不會爆發戰爭,理由主要有三點

      經伊朗這一戰,中美之間至少50年內不會爆發戰爭,理由主要有三點

      南權先生
      2026-04-07 15:31:40
      2026-04-08 13:00:49
      薛定諤的BUG
      薛定諤的BUG
      有態度網友ytd
      955文章數 30關注度
      往期回顧 全部

      科技要聞

      造出地表最強AI,卻死活不給你用!

      頭條要聞

      伊朗代表:感謝中俄 堅定站在歷史正確的一邊

      頭條要聞

      伊朗代表:感謝中俄 堅定站在歷史正確的一邊

      體育要聞

      皇馬1.5億巨星浪費超級單刀 丟球攤手抱怨

      娛樂要聞

      楊穎鄧超低調現身觀眾席 支持陳赫話劇

      財經要聞

      特朗普同意停火兩周 伊朗:接受停火提議

      汽車要聞

      5門5座/新復古造型 繽果Pro將于4月14日開啟預售

      態度原創

      房產
      本地
      教育
      家居
      軍事航空

      房產要聞

      千億雙國企,定序主城第一大盤!三亞買房邏輯變了!

      本地新聞

      跟著歌聲游安徽,聽古村回響

      教育要聞

      知識就這樣唱進了大腦!

      家居要聞

      自在恣意 侘寂風別墅

      軍事要聞

      文化符號當“彈藥” 美伊將信息戰帶入新階段

      無障礙瀏覽 進入關懷版