DeepSeek 最新開源OCR模型,實測,不如百度
一個強大的開源OCR工具,基于DeepSeek OCR
DeepSeek之后,清華和智譜AI提出“視覺壓縮”新范式
DeepSeek-OCR桌面客戶端,Windows用戶優先體驗
現有的 LLMs 在處理長輸入時表現不佳,因為它們只能處理固定數量的 token,即所謂的上下文窗口,而且隨著輸入變長,注意力成本會迅速增加。
DeepSeek-OCR 采用了一種全新的方法。
它不是將長上下文直接發送給 LLM,而是先將其轉換為圖像,再將該圖像壓縮為視覺 token,然后將這些 token 傳遞給 LLM。
更少的 token 可以降低注意力計算成本,并擴大有效上下文窗口,使聊天機器人和文檔模型更強大、更高效。
DeepSeek-OCR 是如何構建的?該系統主要由兩部分組成:
1. 編碼器:處理文本圖像,提取視覺特征,并將其壓縮為少量視覺 token。
2. 解碼器:一個混合專家語言模型,讀取這些 token 并逐一生成文本,類似于標準的僅解碼器 Transformer。
何時使用它?
DeepSeek-OCR 表明,文本可以通過視覺表示進行高效壓縮。
它特別適用于處理超出標準上下文限制的極長文檔。你可以將其用于上下文壓縮、標準 OCR 任務,或深度解析,例如將表格和復雜版式轉換為文本。
15 張數據挖掘、機器學習速查表-用單頁圖表總結必須掌握的重要概念與技術
史上最全!371張速查表,涵蓋AI、ChatGPT、Python、R、深度學習、機器學習等
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.