技術的權杖交接,往往發生在不經意間。
整理 | 夢依丹
出品 | CSDN(ID:CSDNnews)
GitHub Star 超過 73.3k,百度 PaddleOCR 正式登頂全球最受歡迎 OCR 項目,超越長達近 40 年的行業絕對標桿——由 Google 維護的 Tesseract OCR。
![]()
截止發文, PaddleOCR Star 已超 73.7k
![]()
大模型時代的“眼睛”:為什么 OCR 突然變卷了?
在這個大模型滿天飛的時代,大家都在卷參數、卷長文本。但我們心里都清楚一個尷尬的現實:如果你的 RAG 系統,連前置丟進去的復雜 PDF 表格都識別得錯漏百出,后面的大模型再聰明也是“垃圾進,垃圾出(Garbage in, Garbage out)”。
OCR 就像是大模型的“眼睛”。眼睛如果高度近視,大腦怎么做決策?
正因如此,你會發現一個清晰的現象:從百度、騰訊、阿里到月之暗面、智譜、小紅書,甚至國外的 HuggingFace 和 Mistral,國內外巨頭與獨角獸在 OCR 賽道上迎來了集體爆發。
他們搶的不是“認字能力”,而是搶占通往現實世界的高價值數據入口。
![]()
以小博大,5M 參數如何硬剛千億模型?
PaddleOCR 開源于 2020 年,支持超 100 種語言識別,用戶更是覆蓋了 160 個國家和地區。
PaddleOCR 能在“百模大戰”中脫穎而出,靠的不是盲目堆算力,而是兩套“反直覺”的硬核邏輯。在今年的頂級視覺會議CVPR 2026上,其團隊連續入選的兩篇重磅論文徹底解開了它的秘密:
PP-OCRv5:參數不一定越大越好
在這個言必稱“百億/千億參數”的時代,飛槳團隊反其道而行之。他們通過精細化的“數據工程”(量化分析數據難度與多樣性),訓出了一個僅有 5M 參數的模型。但就是這個極其袖珍的模型,在手寫、多語言等場景下的綜合表現,竟然超越了包括 GPT-4o 在內的諸多千億參數大模型,徹底打破了傳統小模型的性能天花板。
![]()
論文地址:https://arxiv.org/pdf/2603.24373v1
PaddleOCR-VL:破解“高分辨率計算困境”
處理高清文檔時,大模型的視覺 Token 數量會呈二次方爆炸式增長。飛槳團隊首創了“由粗到細(Coarse-to-Fine)”架構,先用輕量模塊精準定位有效區域,再讓核心模型(僅 0.9B 參數)進行處理。這一巧妙設計使其視覺 Token 數量暴降至競品的 1/3,卻在 OmniDocBench V1.5 全球權威榜單上拿下了 94.5% 的 SOTA 成績,穩居全球綜合性能第一。
![]()
論文地址:https://arxiv.org/pdf/2603.24326
注:這兩篇論文一作崔程將出席「2026 奇點智能技術大會」并現場帶來「飛槳PaddleOCR最新技術與產業實踐」主題分享
![]()
PaddleOCR-VL 在 OmniDocBench v1.5 評測中,以最少的視覺 Token 和參數量實現了 SOTA(全球領先)性能
![]()
從“看清”到“做完”:奇點技術大會上的“Agent+OCR”實戰
在底層模型登頂之后,接下來的終極命題是:如何將這雙極其銳利的“眼睛”,裝到能夠自動干活的 Agent 身上?
這正是企業數字化轉型與 AI 落地的深水區。
在即將于 4 月 17-18 日在上海舉辦的「2026 奇點智能技術大會」上,我們榮幸邀請到了百度飛槳 PaddleOCR、PaddleX 等套件技術負責人崔程。
崔程不僅參與了飛槳 PP 系列 80 余個核心模型的研發,更是 10 余項國際 AI 競賽(包括 CVPR/ICCV 等)的金牌得主。在本次大會上,他將帶來題為 《飛槳 PaddleOCR 最新技術與產業實踐》 的重磅分享。
這場分享拒絕紙上談兵,將直接針對企業最痛的“復雜文檔解析”場景,交出一份全鏈路的工程答卷。現場核心看點包括:
OCR 現狀與痛點剖析: 從一線業務視角,拆解大模型時代在異形框定位(傾斜、彎折文檔)與復雜表格理解中的真實挑戰;
PaddleOCR 核心技術解碼: 深入分享支撐 PaddleOCR 登頂的底層算法邏輯與“數據為中心”的優化策略;
PaddleOCR 3.0 重磅升級: 全面解讀新一代模型與官方 API 的新特性,看它是如何與文心大模型打出“雙向賦能”組合拳的;
PaddleOCR + Agent 工具解析: 現場演示如何將極致的 OCR 感知能力,深度融合進 Agent 自動化工作流中。從信息抽取到知識庫構建,手把手教你打造高效率的復雜文檔自動解析引擎。
如果你正在苦惱于大模型的 RAG 數據清洗質量,如果你想知道如何用最低的算力成本搞定最難的金融/醫療文檔,這場硬核分享,絕對不容錯過。
![]()
關于奇點智能技術大會
奇點智能技術大會是由深耕多年的「全球機器學習技術大會」重磅升級而來。為了讓這些前沿技術真正能夠“落地”,本次大會深度梳理了 12 大核心技術專題,力求覆蓋從底層 Infra 基礎設施到頂層 Agent 系統架構的全生命周期。
我們不再滿足于宏觀的趨勢判斷,而是深入到了“智能體工程落地”、“AI 原生軟件研發”、“AI Infra 基礎設施與運維”、“具身智能與多模態行業實踐”等深水 區,力求還原那些最真實的工程決策過程。
目前大會全日程已出爐,誠邀全球 AI 產業參與者積極加入,共同捕捉前沿趨勢,探索產業升級路徑,推動 AI 走向更廣闊的應用場景。期待與每一位同行者攜手見證 AI 時代的新篇章 !
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.