臨近春節(jié),DeepSeek 又有新動作了。
就在剛剛,DeepSeek 在 HuggingFace 和 GitHub 上開源新模型OCR 2,并附上了完整的論文。
和初代 OCR 主打視覺壓縮不同,這是一種旨在改進(jìn)視覺-語言模型(VLMs)中視覺編碼方式的新型模型。核心創(chuàng)新在于引入了 DeepEncoder V2,通過模擬人類的視覺因果推理能力,解決了傳統(tǒng)模型在處理復(fù)雜文檔布局時的局限性。
傳統(tǒng)的 VLMs 通常按固定的光柵掃描順序(從左上到右下)處理圖像,這種僵化的方式不符合我們的視覺感知,人類是基于內(nèi)容的靈活掃描,而且在處理復(fù)雜布局,如表格、公式、多欄文本時會引入錯誤的信息。
而 OCR 2,就是利用新型編碼器 DeepEncoder V2,給了模型「視覺因果流 Visual Causal Flow」的能力,讓模型能夠根據(jù)圖像內(nèi)容,動態(tài)地重新排序視覺 Token。
DeepEncoder V2 是 OCR 2 模型的關(guān)鍵創(chuàng)新,它的設(shè)計有以下幾個特點(diǎn)。
1?? 拋棄了上一代 DeepEncoder 中使用的 CLIP 模塊,轉(zhuǎn)而使用一個緊湊的 LLM 架構(gòu)(基于 Qwen2-0.5B)作為視覺編碼器。
2?? 混合注意力機(jī)制,視覺 Token 上使用雙向注意力,類似于 ViT。在因果流查詢,引入可學(xué)習(xí)的查詢 Token,能夠關(guān)注到所有視覺 Token 和之前的查詢,從而實(shí)現(xiàn)對視覺信息的邏輯重排序。
3?? 級聯(lián)因果推理,這種設(shè)計形成了一個兩級級聯(lián)結(jié)構(gòu),編碼器通過查詢 Token 對視覺信息進(jìn)行語義重排序,隨后的 LLM 解碼器則基于這個有序序列進(jìn)行推理。
4?? Token 壓縮,輸入給 LLM 的視覺 Token 數(shù)量控制在 256 到 1120 之間。這個數(shù)量級既保留了 OCR 的高壓縮比,又做到了 Gemini 3 Pro 的最大視覺 Token 預(yù)算能做的事。
基于全新的架構(gòu)設(shè)計和訓(xùn)練,DeepSeek-OCR 2 在多個指標(biāo)上展現(xiàn)了顯著提升。
1?? 基準(zhǔn)測試,在 OmniDocBench v1.5 上,DeepSeek-OCR 2 的整體性能達(dá)到 91.09%,相比初代基線提升了 3.73%。
2?? 閱讀順序,編輯距離從 0.085 顯著降低至 0.057,證明了模型在理解視覺邏輯順序方面的進(jìn)步。
3?? 生產(chǎn)環(huán)境表現(xiàn),在實(shí)際應(yīng)用中,重復(fù)率大幅下降,例如在線用戶日志數(shù)據(jù)中從 6.25% 降至 4.17%,表明模型的實(shí)用性和穩(wěn)定性更強(qiáng)。
4?? 效率,在保持高性能的同時,使用了極低的視覺 Token 預(yù)算,最多 1120 個,相比其他模型效率更高。
未來,DeepSeek 打算通過兩個 1D 因果推理器的級聯(lián),探索實(shí)現(xiàn)真正的 2D 圖像理解和推理。
論文:https://github.com/deepseek-ai/DeepSeek-OCR-2
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.