網易首頁 > 網易號 > 正文申請入駐

星標超73.7K，百度PaddleOCR成全球最受歡迎OCR項目，擊敗40年霸主Google Tesseract！

2026-03-31 17:33:28　來源: CSDN

北京舉報

分享至

技術的權杖交接，往往發生在不經意間。

整理 | 夢依丹

出品 | CSDN（ID：CSDNnews）

GitHub Star 超過 73.3k，百度 PaddleOCR 正式登頂全球最受歡迎 OCR 項目，超越長達近 40 年的行業絕對標桿——由 Google 維護的 Tesseract OCR。

截止發文， PaddleOCR Star 已超 73.7k

大模型時代的“眼睛”：為什么 OCR 突然變卷了？

在這個大模型滿天飛的時代，大家都在卷參數、卷長文本。但我們心里都清楚一個尷尬的現實：如果你的 RAG 系統，連前置丟進去的復雜 PDF 表格都識別得錯漏百出，后面的大模型再聰明也是“垃圾進，垃圾出（Garbage in, Garbage out）”。

OCR 就像是大模型的“眼睛”。眼睛如果高度近視，大腦怎么做決策？

正因如此，你會發現一個清晰的現象：從百度、騰訊、阿里到月之暗面、智譜、小紅書，甚至國外的 HuggingFace 和 Mistral，國內外巨頭與獨角獸在 OCR 賽道上迎來了集體爆發。

他們搶的不是“認字能力”，而是搶占通往現實世界的高價值數據入口。

以小博大，5M 參數如何硬剛千億模型？

PaddleOCR 開源于 2020 年，支持超 100 種語言識別，用戶更是覆蓋了 160 個國家和地區。

PaddleOCR 能在“百模大戰”中脫穎而出，靠的不是盲目堆算力，而是兩套“反直覺”的硬核邏輯。在今年的頂級視覺會議CVPR 2026上，其團隊連續入選的兩篇重磅論文徹底解開了它的秘密：

PP-OCRv5：參數不一定越大越好

在這個言必稱“百億/千億參數”的時代，飛槳團隊反其道而行之。他們通過精細化的“數據工程”（量化分析數據難度與多樣性），訓出了一個僅有 5M 參數的模型。但就是這個極其袖珍的模型，在手寫、多語言等場景下的綜合表現，竟然超越了包括 GPT-4o 在內的諸多千億參數大模型，徹底打破了傳統小模型的性能天花板。

論文地址：https://arxiv.org/pdf/2603.24373v1

PaddleOCR-VL：破解“高分辨率計算困境”

處理高清文檔時，大模型的視覺 Token 數量會呈二次方爆炸式增長。飛槳團隊首創了“由粗到細（Coarse-to-Fine）”架構，先用輕量模塊精準定位有效區域，再讓核心模型（僅 0.9B 參數）進行處理。這一巧妙設計使其視覺 Token 數量暴降至競品的 1/3，卻在 OmniDocBench V1.5 全球權威榜單上拿下了 94.5% 的 SOTA 成績，穩居全球綜合性能第一。

論文地址：https://arxiv.org/pdf/2603.24326

注：這兩篇論文一作崔程將出席「2026 奇點智能技術大會」并現場帶來「飛槳PaddleOCR最新技術與產業實踐」主題分享

PaddleOCR-VL 在 OmniDocBench v1.5 評測中，以最少的視覺 Token 和參數量實現了 SOTA（全球領先）性能

從“看清”到“做完”：奇點技術大會上的“Agent+OCR”實戰

在底層模型登頂之后，接下來的終極命題是：如何將這雙極其銳利的“眼睛”，裝到能夠自動干活的 Agent 身上？

這正是企業數字化轉型與 AI 落地的深水區。

在即將于 4 月 17-18 日在上海舉辦的「2026 奇點智能技術大會」上，我們榮幸邀請到了百度飛槳 PaddleOCR、PaddleX 等套件技術負責人崔程。

崔程不僅參與了飛槳 PP 系列 80 余個核心模型的研發，更是 10 余項國際 AI 競賽（包括 CVPR/ICCV 等）的金牌得主。在本次大會上，他將帶來題為《飛槳 PaddleOCR 最新技術與產業實踐》的重磅分享。

這場分享拒絕紙上談兵，將直接針對企業最痛的“復雜文檔解析”場景，交出一份全鏈路的工程答卷。現場核心看點包括：

OCR 現狀與痛點剖析：從一線業務視角，拆解大模型時代在異形框定位（傾斜、彎折文檔）與復雜表格理解中的真實挑戰；
PaddleOCR 核心技術解碼：深入分享支撐 PaddleOCR 登頂的底層算法邏輯與“數據為中心”的優化策略；
PaddleOCR 3.0 重磅升級：全面解讀新一代模型與官方 API 的新特性，看它是如何與文心大模型打出“雙向賦能”組合拳的；
PaddleOCR + Agent 工具解析：現場演示如何將極致的 OCR 感知能力，深度融合進 Agent 自動化工作流中。從信息抽取到知識庫構建，手把手教你打造高效率的復雜文檔自動解析引擎。

如果你正在苦惱于大模型的 RAG 數據清洗質量，如果你想知道如何用最低的算力成本搞定最難的金融/醫療文檔，這場硬核分享，絕對不容錯過。

關于奇點智能技術大會

奇點智能技術大會是由深耕多年的「全球機器學習技術大會」重磅升級而來。為了讓這些前沿技術真正能夠“落地”，本次大會深度梳理了 12 大核心技術專題，力求覆蓋從底層 Infra 基礎設施到頂層 Agent 系統架構的全生命周期。

我們不再滿足于宏觀的趨勢判斷，而是深入到了“智能體工程落地”、“AI 原生軟件研發”、“AI Infra 基礎設施與運維”、“具身智能與多模態行業實踐”等深水區，力求還原那些最真實的工程決策過程。

目前大會全日程已出爐，誠邀全球 AI 產業參與者積極加入，共同捕捉前沿趨勢，探索產業升級路徑，推動 AI 走向更廣闊的應用場景。期待與每一位同行者攜手見證 AI 時代的新篇章！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.