網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

百萬 Token 也能無損壓縮？C3 模型用“級(jí)聯(lián)壓縮”重新定義長(zhǎng)上下文挑戰(zhàn)

2025-12-12 22:23:17　來源: CSDN

北京舉報(bào)

分享至

【編者按】百萬級(jí)別 Token 的輸入，正在成為大型語言模型（LLMs）長(zhǎng)上下文任務(wù)中的計(jì)算與內(nèi)存“噩夢(mèng)”。DeepSeekOCR 憑借“上下文光學(xué)壓縮”技術(shù)實(shí)現(xiàn)了 10 倍 Token 壓縮率，引發(fā)全網(wǎng)熱議。但透過現(xiàn)象看本質(zhì)，高壓縮率的秘密，真的在于“圖像化”嗎？

作者 | 劉帆帆

出品丨作者投稿

DeepSeekOCR 的成功讓許多人誤以為“視覺編碼”是壓縮的關(guān)鍵。然而，研究團(tuán)隊(duì)經(jīng)過深入分析發(fā)現(xiàn)，高壓縮率的核心其實(shí)源自 Latent Tokens（潛在 Token）本身——這是一種比離散文本 Token 更高效、密度更高的信息載體。

基于這一洞察，作者所在的研究團(tuán)隊(duì)提出了一種直擊本質(zhì)的全新路徑：Context Cascade Compression (C3，上下文級(jí)聯(lián)壓縮)。

將兩種路徑進(jìn)行對(duì)比：

DeepSeek OCR 路徑：文本 → 圖像 → 視覺 Token → 語言模型（引入了布局、噪點(diǎn)、視覺編碼器等無關(guān)干擾）
C3 路徑：文本 → 文本 Latent Tokens → 語言模型（純粹、無損、直接）

具體來說，一個(gè)小型 LLM 作為第一級(jí)，通過將長(zhǎng)上下文壓縮成一組潛在 token（例如，長(zhǎng)度為 32 或 64），實(shí)現(xiàn)高比例的文本 token 到潛在 token 的壓縮。一個(gè)大型 LLM 作為第二級(jí)，然后對(duì)這個(gè)壓縮的上下文執(zhí)行解碼任務(wù)。

這一設(shè)計(jì)也驗(yàn)證了近期熱門論文《LANGUAGE MODELS ARE INJECTIVE AND HENCE INVERTIBLE》中關(guān)于「LLM 本質(zhì)是無損壓縮」的論斷。

實(shí)驗(yàn)表明，在 20 倍壓縮比（文本 token 數(shù)量是潛在 token 數(shù)量的 20 倍）下，C3 實(shí)現(xiàn)了 98% 的解碼準(zhǔn)確率，而 DeepSeek OCR 大約為60%。當(dāng)我們進(jìn)一步將壓縮比增加到 40 倍時(shí)，準(zhǔn)確率仍保持在約 93%。這表明在上下文壓縮領(lǐng)域，C3 壓縮比光學(xué)字符壓縮展示了更優(yōu)越的性能和可行性。

目前模型與代碼現(xiàn)已開源：

原文：https://arxiv.org/pdf/2511.15244
代碼：https://github.com/liufanfanlff/C3-Context-Cascade-Compression
模型：https://huggingface.co/liufanfanlff/C3-Context-Cascade-Compression

架構(gòu)

在介紹 C3 之前，先帶大家來了解一下 DeepSeek-OCR 的工作原理。DeepSeek-OCR 采用了一種創(chuàng)新的"視覺壓縮"思路，這種方法的優(yōu)勢(shì)在于利用了視覺編碼器強(qiáng)大的特征提取能力，但也面臨著圖像布局復(fù)雜性、低分辨率下的模糊等固有限制。C3 提出了一個(gè)更直接的壓縮思路：跳過視覺中介，沒有中間商賺差價(jià)，直接在文本域進(jìn)行壓縮。其核心架構(gòu)包括：

1.雙 LLM 級(jí)聯(lián)設(shè)計(jì)

小型 LLM（算力消耗低）作為壓縮編碼器，壓縮上下文信息。
大型 LLM（推理生成能力強(qiáng)）作為解碼器執(zhí)行下游任務(wù)。

2.壓縮機(jī)制

引入可學(xué)習(xí)的"上下文查詢"（Context Query）嵌入
將長(zhǎng)文本壓縮為固定長(zhǎng)度的潛在token（如32或64個(gè)）。
完全保留預(yù)訓(xùn)練 LLM 的語言壓縮能力

性能表現(xiàn)

在 Fox 基準(zhǔn)測(cè)試中，C3 展現(xiàn)出顯著優(yōu)勢(shì)：

在約 20 倍壓縮時(shí)，C3 保持 98.4% 精度，而D eepSeek-OCR 降至59.1%
即使在極限的 40 倍壓縮率下（32 個(gè)潛在 token），C3 仍能維持 93% 以上的重建精度

獨(dú)特的"遺忘模式"：更接近人類記憶

研究還發(fā)現(xiàn)了 C3 的一個(gè)有趣特性：當(dāng)壓縮率過高導(dǎo)致信息損失時(shí)，錯(cuò)誤往往集中在文本末尾，呈現(xiàn)序列性信息衰減。這與光學(xué)壓縮方法的"全局模糊"不同，反而更類似人類記憶的漸進(jìn)式遺忘過程。

這種特性使得 C3 在實(shí)際應(yīng)用中更具可預(yù)測(cè)性——重要信息可以優(yōu)先放置在文本前部，確保關(guān)鍵內(nèi)容的完整保留。

測(cè)試

無論是在長(zhǎng)英文文本還是中文古文上均做到了近乎完美的壓縮還原

甚至對(duì)于 LLM 一直難以處理的亂序文本也能精準(zhǔn)還原

應(yīng)用前景

1. 超長(zhǎng)上下文處理：C3 可作為現(xiàn)有 LLM 的"前端壓縮器"，將百萬級(jí) token 的輸入（如整本書籍、大型代碼庫(kù)）壓縮到可處理范圍，降低計(jì)算成本。

2. 多模態(tài)：級(jí)連輕量級(jí) VLM 和 LLM，輕量級(jí) VLM 作為視覺 encoder 進(jìn)行信息壓縮，處理視覺信息豐富的長(zhǎng)文檔等。

3. 下一代模型的基礎(chǔ)組件：C3 的編碼-解碼架構(gòu)可直接應(yīng)用于擴(kuò)散語言模型和潛在自回歸模型，將可變長(zhǎng)度文本轉(zhuǎn)換為固定長(zhǎng)度潛在表示。

這是一個(gè)在有限的人力、算力與數(shù)據(jù)背景下誕生的“小而美”項(xiàng)目。

目前 C3 的代碼與權(quán)重開源，希望開源社區(qū)的研究者們能接過這一棒，激發(fā)出C3 的巨大潛能。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.