![]()
新智元報道
編輯:LRST
【新智元導讀】DeepSeek-OCR的視覺文本壓縮(VTC)技術通過將文本編碼為視覺Token,實現高達10倍的壓縮率,大幅降低大模型處理長文本的成本。但是,視覺語言模型能否理解壓縮后的高密度信息?中科院自動化所等推出VTCBench基準測試,評估模型在視覺空間中的認知極限,包括信息檢索、關聯推理和長期記憶三大任務。
近期,DeepSeek-OCR憑借其創新的「視覺文本壓縮」(Vision-Text Compression, VTC)范式引發了技術圈的高度關注,以極少的視覺Token實現高效的文本信息編碼,為長文本處理開辟了新路徑。
這一突破性進展讓大模型處理超長文檔的成本大幅降低,但也拋出了一個核心問題:當長文本被高度壓縮為2D圖像后,視覺語言模型(VLM)真的能理解其中的內容嗎?
為了解答這一疑問,來自中科院自動化所、中國科學院香港創新研究院等機構的研究團隊推出了首個專門針對視覺-文本壓縮范式的基準測試——VTCBench。
![]()
論文鏈接:https://arxiv.org/abs/2512.15649
VTCBench鏈接: https://github.com/Moenupa/VTCBench
VLMEvalKit鏈接:https://github.com/bjzhb666/VLMEvalKit
Huggingface鏈接: https://huggingface.co/datasets/MLLM-CL/VTCBench
![]()
圖 1:視覺-文本壓縮 (VTC) 流程演示及VTCBench
與傳統大模型直接讀取成千上萬的純文本Token不同,VTC范式(如DeepSeek-OCR)先將長文檔渲染 (Rendering)為高密度的2D圖像,再由視覺編碼器轉化為少量的視覺Token。
該技術可實現2倍至10倍的Token壓縮率,顯著降低了長文本處理時的計算與顯存開銷。
VTCBench現已在GitHub和Huggingface全面開源,其衍生版本VTCBench-Wild是一個統一的、全方位評估模型在復雜現實場景下視覺文本壓縮的魯棒性,現已集成到VLMevalkit。
核心使命
衡量「看得見」之后的「看得懂」
目前的VLM也許能出色地完成OCR識別,但在處理 VTC 壓縮后的高密度信息時,其長文本理解能力仍存疑。
VTCBench通過三大任務,系統性地評估模型在視覺空間中的認知極限:
1.VTC-Retrieval (信息檢索):在視覺「大海」中尋找特定事實的「針」(Needle-in-a-Haystack),測試模型對空間分布信息的捕捉能力。
2.VTC-Reasoning (關聯推理):挑戰模型在幾乎沒有文本重疊的情況下,通過關聯推理尋找事實,超越單純的詞匯檢索。
3.VTC-Memory (長期記憶):模擬超長對話,評估模型在視覺壓縮框架下,抵御時間與結構性信息衰減的能力。
此外,團隊同步推出了VTCBench-Wild,引入 99 種不同的渲染配置(涵蓋多種字體、字號、行高及背景),全方位檢測模型在復雜現實場景下的魯棒性。
揭秘視覺壓縮背后的認知瓶頸
![]()
圖 2:VTCBench針對模型在長圖像中檢索信息的熱力圖。橫軸代表上下文長度,縱軸代表關鍵事實(Needle)在文檔中的深度。展現了模型表現的「迷失」與突破。
測試結果呈現出顯著的「U 型曲線」:與文本模型類似,視覺語言模型(VLM)能夠精準捕捉開頭和結尾的信息,但對于中間部分的事實,理解能力會隨著文檔變長而劇烈衰退。這證明了即使在視覺空間,模型依然存在嚴重的「空間注意力偏見」,是未來 VTC 架構優化的關鍵方向。
行業洞察
視覺壓縮是長文本的終局嗎?
![]()
通過對GPT、Gemini、Claude、QwenVL、InternVL、Gemma、KimiVL、Seed1.5等10余種尖端模型的深度評測,可以發現:
雖然VTC極大提升了效率,但現有VLM在復雜推理和記憶任務上的表現仍普遍弱于純文本LLM;
消融實驗證明,信息密度是決定模型性能的關鍵因素,直接影響視覺編碼器的識別精度;
Gemini-3-Pro在VTCBench-Wild上表現驚艷,其視覺理解能力已幾乎追平其純文本基準,證明了VTC是實現大規模長文本處理的極其可行的路徑!
總結
如果說傳統的長文本處理是「逐字閱讀」,那么DeepSeek-OCR所引領的VTC范式就是「過目成誦」的攝影式記憶。VTCBench的出現,正是為了確保模型在擁有這種「超能力」的同時,依然能夠讀懂字里行間的微言大義。
參考資料:
https://arxiv.org/abs/2512.15649
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.