
作者 | 褚杏娟
1 月 29 日,百度正式發(fā)布并開源新一代文檔解析模型 PaddleOCR-VL-1.5。該模型以僅 0.9B 參數(shù)的輕量架構,在全球權威文檔解析評測榜單 OmniDocBench V1.5 中取得全球綜合性能第一成績,整體精度達到 94.5%,超過 Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2 等模型。
值得關注的是,PaddleOCR-VL-1.5 全球首次實現(xiàn) OCR 模型的“異形框定位”能力,使機器能夠精準識別傾斜、彎折、拍照畸變等非規(guī)則文檔形態(tài),首次讓“歪文檔”實現(xiàn)穩(wěn)定、可規(guī)模化解析。該技術解決了傳統(tǒng) OCR 模型在移動拍照、掃描件變形、復雜光照等真實場景中因文檔形變導致的識別失敗問題,可廣泛應用于金融票據(jù)處理、檔案數(shù)字化、政務文檔流轉等場景。
PaddleOCR-VL-1.5 基于文心大模型進行開發(fā),在 OmniDocBench V1.5 多個關鍵指標上取得領先表現(xiàn)。其中,表格結構理解(92.8 分)和閱讀順序預測(95.8 分)兩項核心指標上均位列第一,分別領先 Gemini-3-Pro、DeepSeek-OCR 等主流模型 2–5 分不等。在文檔閱讀順序預測任務中,其版面邏輯解析錯誤率僅為同類其他模型約一半。這表明,PaddleOCR-VL-1.5 在復雜文檔結構還原與版面邏輯理解方面具備更高穩(wěn)定性,在合同、財報等高復雜度業(yè)務場景中擁有更高可用性。
![]()
在線使用 /API:https://www.paddleocr.com
開源項目地址:https://github.com/PaddlePaddle/PaddleOCR
模型下載地址:https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5
2025 年 10 月 16 日,百度首次發(fā)布并開源 PaddleOCR-VL 模型,在 OmniDocBench V1.5 榜單中取得全球 SOTA 成績,并連續(xù)五天登頂 HuggingFace 全球模型總趨勢榜與 ModelScope 全球模型總趨勢榜雙榜第一。
相比于上代,在功能層面,PaddleOCR-VL-1.5 進一步集成印章識別、文本檢測與識別等任務能力,關鍵指標持續(xù)領跑;同時針對特殊場景與多語種識別進行系統(tǒng)優(yōu)化,在生僻字、古籍文獻、多語種表格、下劃線與復選框等復雜結構識別方面顯著提升,并新增對藏語、孟加拉語等語種的支持。模型還支持跨頁表格自動合并與跨頁段落標題識別,有效解決長文檔解析中的結構斷裂問題。
近半年來,全球主流模型廠商密集布局 OCR 領域。1 月 27 日,深度求索發(fā)布新一代 OCR 模型 DeepSeek-OCR-2,引入“因果流查詢”機制,并將語言模型融入視覺編碼,在 OmniDocBench V1.5 中實現(xiàn) 91.09% 精度。與此同時,Mistral AI、字節(jié)跳動、騰訊等企業(yè)也相繼推出新一代 OCR 模型,行業(yè)競爭持續(xù)加劇。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.