![]()
DeepSeek-OCR 的視覺文本壓縮(VTC)技術通過將文本編碼為視覺 Token,實現高達 10 倍的壓縮率,大幅降低大模型處理長文本的成本。但是,視覺語言模型能否理解壓縮后的高密度信息?中科院自動化所等推出 VTCBench 基準測試,評估模型在視覺空間中的認知極限,包括信息檢索、關聯推理和長期記憶三大任務。
近期,DeepSeek-OCR 憑借其創新的「視覺文本壓縮」(Vision-Text Compression, VTC)范式引發了技術圈的高度關注,以極少的視覺 Token 實現高效的文本信息編碼,為長文本處理開辟了新路徑。
這一突破性進展讓大模型處理超長文本的成本大幅降低,但也拋出了一個核心問題:當長文本被高度壓縮為 2D 圖像后,視覺語言模型(VLM)真的能理解其中的內容嗎?
為了解答這一疑問,來自中科院自動化所、中國科學院香港創新研究院等機構的研究團隊推出了首個專門針對視覺 - 文本壓縮范式的基準測試 ——VTCBench。
![]()
- 論文鏈接:https://arxiv.org/abs/2512.15649
- VTCBench 鏈接: https://github.com/Moenupa/VTCBench
- VLMEvalKit 鏈接:https://github.com/bjzhb666/VLMEvalKit
- Huggingface 鏈接: https://huggingface.co/datasets/MLLM-CL/VTCBench
![]()
圖 1:視覺 - 文本壓縮 (VTC) 流程演示及 VTCBench
與傳統大模型直接讀取成千上萬的純文本 Token 不同,VTC 范式(如 DeepSeek-OCR)先將長文檔渲染 (Rendering)為高密度的 2D 圖像,再由視覺編碼器轉化為少量的視覺 Token。
該技術可實現 2 倍至 10 倍的 Token 壓縮率,顯著降低了長文本處理時的計算與顯存開銷。
VTCBench 現已在 GitHub 和 Huggingface 全面開源,其衍生版本 VTCBench-Wild 是一個統一的、全方位評估模型在復雜現實場景下視覺文本壓縮的魯棒性,現已集成到 VLMevalkit。
核心使命——衡量「看得見」之后的「看得懂」
目前的 VLM 也許能出色地完成 OCR 識別,但在處理 VTC 壓縮后的高密度信息時,其長文本理解能力仍存疑。
VTCBench 通過三大任務,系統性地評估模型在視覺空間中的認知極限:
- VTC-Retrieval (信息檢索):在視覺「大海」中尋找特定事實的「針」(Needle-in-a-Haystack),測試模型對空間分布信息的捕捉能力;
- VTC-Reasoning (關聯推理):挑戰模型在幾乎沒有文本重疊的情況下,通過關聯推理尋找事實,超越單純的詞匯檢索;
- VTC-Memory (長期記憶):模擬超長對話,評估模型在視覺壓縮框架下,抵御時間與結構性信息衰減的能力。
此外,團隊同步推出了 VTCBench-Wild,引入 99 種不同的渲染配置(涵蓋多種字體、字號、行高及背景),全方位檢測模型在復雜現實場景下的魯棒性。
揭秘視覺壓縮背后的認知瓶頸
![]()
圖 2:VTCBench 針對模型在長圖像中檢索信息的熱力圖。橫軸代表上下文長度,縱軸代表關鍵事實(Needle)在文檔中的深度。展現了模型表現的「迷失」與突破。
測試結果呈現出顯著的 「U 型曲線」:與文本模型類似,視覺語言模型(VLM)能夠精準捕捉開頭和結尾的信息,但對于中間部分的事實,理解能力會隨著文檔變長而劇烈衰退。
這證明了即使在視覺空間,模型依然存在嚴重的「空間注意力偏見」,是未來 VTC 架構優化的關鍵方向。
行業洞察 —— 視覺壓縮是長文本的終局嗎?
![]()
通過對 GPT、Gemini、Claude、QwenVL、InternVL、Gemma、KimiVL、Seed1.5 等 10 余種尖端模型的深度評測,可以發現:
雖然 VTC 極大提升了效率,但現有 VLM 在復雜推理和記憶任務上的表現仍顯著弱于純文本 LLM;
消融實驗證明,信息密度是決定模型性能的關鍵因素,直接影響視覺編碼器的識別精度;
Gemini-3-Pro 在 VTCBench-Wild 上表現驚艷,其視覺理解能力已幾乎追平其純文本基準,證明了 VTC 是實現大規模長文本處理的極其可行的路徑!
總結
如果說傳統的長文本處理是「逐字閱讀」,那么, DeepSeek-OCR 所引領的 VTC 范式就是「過目成誦」的攝影式記憶。VTCBench 的出現,正是為了確保模型在擁有這種「超能力」的同時,依然能夠讀懂字里行間的微言大義。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.