就在硅谷還在為大模型像不像松鼠爭論不休時,來自中國的DeepSeek與智譜,只干不說,幾乎同時拋出了自己如何教會大模型,像人類一樣“看懂”文本的模型與論文。
“松鼠”是強化學習之父薩頓對大模型是否具備真實的感知與理解能力的隱喻。讓大模型“看懂文本”,已經有點類似意味了。人類感知與理解世界,一條重要的路徑,就是通過大腦視覺皮層處理通過眼睛傳遞進來的視覺信號。
無論是DeepSeek還是智譜的方案,核心都在于用少量的視覺token,表達原本需要大量文本token才能覆蓋的信息。前者提出了DeepSeek-OCR模型,概念核心是“上下文光學壓縮”(Context Optical Compression);后者的Glyph框架,則以“視覺–文本壓縮”(Visual–Text Compression)為中心思想。
兩者都在重新審視“視覺模型”在自然語言壓縮與解壓映射中的角色,讓傳統的OCR(光學字符識別)不再只是識別文字的工具,而成為連接大型語言模型(LLM)與視覺語言模型(VLM)之間的關鍵中間模態。
這顯著提高了信息密度與計算效率。如果能順利將壓縮成圖像的文本信息重新解碼出來,就能大幅降低內存與算力成本。參數規模僅為3B的DeepSeek-OCR,在文本token數量不超過視覺token數量的10倍(即壓縮比<10)時,仍可實現不低于97%的解碼精度;智譜的Glyph框架則實現了3至4倍的上下文壓縮,同時保持與同規模領先語言模型(如Qwen3-8B)相當的性能。
具體而言,DeepSeek-OCR是一個全新的端到端統一架構,由兩個核心組件構成:負責將圖像轉換為高度壓縮視覺 token的編碼器DeepEncoder,以及從這些視覺token中重建文字的解碼器DeepSeek-3B-MoE-A570M。其設計目標是在保持高分辨率輸入的同時,生成盡可能少的視覺token,將激活內存消耗控制在較低水平。相比之下,現有的三類主流視覺語言模型(各自以Vary、InternVL2.0與Qwen2-VL為代表)都無法一一滿足上述要求。
![]()
模型首先利用僅包含“窗口注意力”機制的SAM-base(約8000萬參數),在高分辨率圖像上執行細粒度的局部特征提取,生成約4096個token;隨后通過一個16倍卷積壓縮器,將這些局部特征進一步降維至256個token;最后引入具備“全局注意力”機制的CLIP-large(約3億參數),在低分辨率語義空間中整合全局信息。整個編碼過程完成后,解碼器DeepSeek-3B-MoE負責順序重建上下文,精確復述。
值得注意的是,同一個模型可以根據任務需求靈活調整其“壓縮強度”。為此,DeepSeek人為設定了四種原生分辨率(Native Resolutions),用于平衡精度與計算效率。最低精度的Tiny模式使用約64個token來表示一張512×512的圖像;最高精度的Large模式則需要約400個token來表示1280×1280的圖像。此外,團隊還設計了一種 “高達模式”(Gundam Mode),由兩種原生分辨率組合而成,用于特定的超高分辨率應用場景。
智譜的Glyph框架也是類似的思路,但在策略上有所不同。它的整個訓練流程分為三個緊密耦合的階段:持續預訓練、渲染搜索與后期的監督微調和強化學習。所謂大型語言模型驅動的渲染搜索機制(LLM-driven Rendering Search),就是不再依賴人工設計,而是利用遺傳算法(Genetic Algorithm),讓系統在不斷的進化迭代中,自動發現最優渲染配置,實現壓縮率與視覺清晰度之間的動態平衡。
![]()
在硅谷大神卡帕西(Andrej Karpathy)看來,也許DeepSeek-OCR算不上最好的OCR工具,但這并不重要。他提到了dots,也許指的是同為中國團隊小紅書發布的開源工具dots.ocr,它的文檔解析準確率接近100%。對于DeepSeek-OCR來說,重要的是,它是否揭示了大模型研發的新路徑:像素是否比文本更適合大型語言模型的輸入。
這種方式對信息的壓縮更高效,信息流也更為通用,可以包括不同的空間語義與異構符號體系,比如粗體文本與彩色文本,以及化學符號等等。卡帕西還認為,它能夠輕松使用雙向注意力機制,并最終讓模型擺脫那套“糟糕的、割裂的”分詞體系。傳統的自回歸語言建模是單向的,而分詞器(tokenizer)則阻礙了模型走向端到端的統一表示。
也許文本并非信息的最佳載體,像素才是更高效、更統一的輸入形式。自稱“骨子里的計算機視覺研究者”的卡帕西,甚至更激進地認為,所有向大型語言模型的輸入,都應該先被渲染成圖像。同樣來自視覺領域、提出了擴散Transformer(DiT)的謝賽寧,也給予了DeepSeek高度評價。
讓大模型像生物一樣“看懂”文本,不是DeepSeek與智譜的突發奇想。幾年前,學界就提出過“基于像素的語言建模”(Language Modelling with Pixels)的設想。
但是,中國的開源模型團隊率先將它工程化與實用化。也許,這樣的團隊不只是DeepSeek或智譜。DeepSeek-OCR核心作者Haoran Wei,此前在以多模態模型見長的階躍星辰,就已經和他的同事們,嘗試過對“通用OCR理論”(General OCR Theory)的初步探索。
全球都缺算力,中國尤其如此。同時,隨著多智能體協同的逐步到來,上下文將越來越長,如何合理與高效的記憶與遺忘,是大模型研究的前沿課題。以往,中國團隊的努力主要集中在對傳統注意力機制的優化,試圖引入稀疏或線性注意力,降低計算復雜度。這一次,它們終于越過了文本token的表示瓶頸。
DeepSeek還有更大的野心。它的DeepSeek-OCR不僅關乎“看懂”,還關乎“記憶”與“遺忘”。
當我們回憶一本讀過的書時,往往會依靠視覺印象來定位記憶:時間越近的內容,在腦海中的“分辨率”越高;而那些久遠的記憶,則會被逐漸“壓縮”為關鍵信息,成為再次檢索時的視覺錨點。DeepSeek-OCR的不同分辨率的設計,正好契合了這一思路。也許,它可以通過逐級壓縮信息,直至邊際遺忘,或內化為更深層的表征。
![]()
“記憶”與“遺忘”,意味著更高效的計算、通信與儲存,對于智能體完成多輪對話的長程任務,甚至未來大模型自進化,都至關重要。如果說,現在的大模型更像卡帕西所說的“幽靈”而不是“松鼠”,也正是缺少感知與理解、記憶與遺忘的關鍵循環。
在論文的最后,DeepSeek團隊致辭說,這一思路“為構建一種理論上無限上下文長度的模型架構(unlimited context architectures)提供了新的可能”,是一個很有前景的新方向;智譜團隊致辭說,這是一種很有前景的“擴展長上下文大模型(scaling long-context LLMs)”的新范式,在深度方面仍有很大的探索空間。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.