<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      全球OCR新王來自中國開源!GitHub狂攬73300+Star

      0
      分享至

      西風 發自 凹非寺
      量子位 | 公眾號 QbitAI

      GitHub OCR項目之王剛剛歷史性易主。

      誕生近40年、統治OCR領域的技術標桿Tesseract OCR,被中國開源拉下王座——

      百度文心衍生模型PaddleOCR以73300+Star,正式登頂GitHub全球OCR項目榜,終結谷歌Tesseract OCR長期霸榜局面。

      這也是中國開源在這一基礎賽道上,首次拿下全球Star第一。



      不僅如此,在Hugging Face上,PaddleOCR也長期處于OCR與文檔解析領域的頭部位置,已經成為全球開發者的必備工具。

      消息一出,開發者社區瞬間炸開了鍋。

      從“跟跑”到“領跑”,大模型時代,中國開源項目正在用實力改寫全球競爭格局。



      光超越還不夠,劃重點:

      PaddleOCR同步升級服務放出一波福利,官?免費每?解析?數翻番,由1萬提升?2萬。用戶還可通過OpenClaw直接調用PaddleOCR Skill,為其接入專業“視覺”能力。

      PaddleOCR OCEAN生態聯盟也重磅發布,面向核心開源貢獻者、企業用戶、模型托管平臺及硬件廠商等OCR上下游伙伴,這將進一步推動OCR能力在更廣泛場景中的應用落地。

      大模型時代,PaddleOCR是如何拔得頭籌的?OCR又為何如此重要?

      超越谷歌Tesseract OCR,新王者誕生

      在OCR領域,Tesseract OCR無疑是一座里程碑式的存在,它的發展歷程跨越四十多年。

      1985年,Tesseract OCR誕生于惠普公司的研發項目。彼時的OCR技術尚處于起步階段,核心需求集中在商業文檔的自動化識別與錄入。

      1994年,Tesseract OCR核心版本開發完成。在1995年美國內華達大學拉斯維加斯分校(UNLV)組織的OCR評測中,Tesseract OCR憑借優異的印刷體識別精度,躋身全球頂尖OCR引擎行列。

      不過,隨著惠普業務重心的調整,1996年后,Tesseract OCR的研發工作幾乎陷入停滯。直到2005年,惠普決定將Tesseract OCR開源。

      轉折點出現在2006年,谷歌看中了Tesseract OCR的技術潛力,接過手來將其納入自身開源生態體系。研發團隊修復了大量歷史遺留的bug,優化了引擎的運行速度和兼容性,更緊跟技術潮流,推動其完成了從傳統算法到深度學習的跨越。

      但技術世界的法則從來如此:沒有永恒的王者,只有持續迭代的創新

      文心大模型衍生而來的PaddleOCR,正是這場變革的引領者。

      PaddleOCR的登頂,并非一朝一夕之功。它誕生于2020年,是深度學習時代下原生基于深度學習技術構建的模型。

      2023年,大模型浪潮席卷整個AI行業,OCR賽道也迎來代際更替。文心大模型的持續高速迭代,直接為PaddleOCR帶來了全新的能力天花板

      PaddleOCR與文心大模型之間,逐漸玩出了一套非常有意思的雙向賦能組合拳:

      一個負責“看”:用高精度的文本提取能力,把文檔中的文字、表格、公式準確撈出來,為大模型提供“食材”。

      一個負責“懂”:文心大模型快速迭代,在多模態方向實現突破,視覺理解、跨模態融合、結構化輸出,能力版圖一步步補齊。文心不僅能消化這些信息,還能反哺PaddleOCR,讓它真正理解復雜文檔的邏輯脈絡。

      這種協同直接推動了PaddleOCR的爆發式增長。

      Star History顯示,GitHub PaddleOCR Star數自2024年起呈現加速增長態勢。

      基于文心大模型技術底座,PaddleOCR-VL、PaddleOCR-VL-1.5核心模型相繼推出。

      2025年10月,百度發布并開源自研多模態文檔解析模型PaddleOCR-VL



      PaddleOCR-VL僅0.9B參數量,就在全球權威文檔解析評測榜單OmniDocBench V1.5上拿下92.6分的成績,超越Gemini-2.5 Pro、GPT-4o等與其體量懸殊的多模態大模型以及OCR領域的垂直模型dots.ocr、MinerU等,獲得綜合性能全球第一。

      在文本識別、公式識別、表格理解、閱讀順序四大核心能力上,PaddleOCR-VL全面刷新SOTA:



      同時,發布16小時內,PaddleOCR-VL直沖HuggingFace Trending全球第一、ModelScope Trending全球第一、HuggingFace Paper Trending全球第一,持續五天登頂。



      今年一月底,百度再次發力,發布并開源新一代文檔解析模型PaddleOCR-VL-1.5

      同樣僅0.9B參數,PaddleOCR-VL-1.5在OmniDocBench V1.5上的整體精度再提升,達到94.5%,超過Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2等,全球綜合性能排第一。

      新一代模型更進一步實現了全球首次“異形框定位”

      模型能夠精準識別傾斜、彎折、拍照畸變等非規則文檔形態,讓“歪文檔”實現穩定、可規模化解析。金融票據處理、檔案數字化等真實場景中的老大難問題,終于有了解決方案。

      目前,PaddleOCR用戶已覆蓋160個國家和地區,支持110+種語言識別,成為真正意義上具有全球影響力的開源項目。

      5M參數模型硬剛千億模型

      這些只是水面之上的部分。讓PaddleOCR實現翻盤的,還有水面之下的技術突破、積淀和創新。

      CVPR 2026,PaddleOCR團隊有兩篇研究成果成功被收錄。

      這兩篇論文瞄準的都是OCR領域最前沿、最棘手的行業難題。拆開這兩篇論文,或許就能從更深層的技術視角看懂PaddleOCR到底強在哪。

      首先是PP-OCRv5這項工作。



      PP-OCRv5論文鏈接: https://arxiv.org/pdf/2603.24373v1

      PP-OCRv5提出的是一個反直覺的事:參數不一定是越大越好。

      模型參數僅5M,卻能在手寫、多語言、自然場景下表現超越GPT-4o等千億參數的大模型。



      怎么做到的?答案是“數據為中心”的系統化優化策略

      OCR領域,大參數視覺語言模型占主導。但這類通用大模型普遍存在定位精度不足、文本幻覺等致命問題,而傳統輕量化OCR模型又過度聚焦架構創新,始終被數據質量與規模的短板限制性能。

      PP-OCRv5正是在這樣的背景下誕生的。

      百度飛槳團隊沒有盲目堆模型規模,而是提出了一套針對OCR數據的量化分析框架,從數據難度、數據準確性、數據多樣性三個維度,徹底重構了OCR模型的數據訓練策略。

      實驗驗證了數據三維度優化的有效性。

      關鍵是,團隊發現了這樣一條規律:

      模型訓練存在明確的“難度甜點區”,中等難度的數據訓練效率最高,簡單樣本和高難度樣本都需要控制比例;特征多樣性遠比盲目堆砌數據量更重要;而小模型對標簽噪聲居然有天然的強魯棒性。



      在內部多場景基準測試中,PP-OCRv5加權準確率從PP-OCRv4的53.0%大幅提升至80.1%,在OmniDocBench上,該模型以5M參數實現0.067的平均歸一化編輯距離,在專用OCR模型中達到最優水平,在多語言處理、旋轉文本、復雜背景等場景表現穩健,定位精度更高、幻覺更少、計算成本遠低于百億參數視覺語言模型。

      這一切都指向一個核心結論:數據策略的上限還沒有被充分挖掘。通過精細化的“數據工程”,小模型可以在OCR場景媲美大模型。

      在PaddleOCR團隊看來,“數據本身,可能會慢慢變成?條更獨?、也更重要的能?曲線”。

      再來看另一項被接收的工作,正是PaddleOCR-VL



      PaddleOCR-VL論文鏈接: https://arxiv.org/pdf/2603.24326

      如果說PP-OCRv5解決的是“參數效率”,那PaddleOCR-VL進一步解決的是“計算困境”。

      高分辨率文檔解析一直是VLM的痛點——輸入一張高清文檔,視覺Token數量呈二次方增長,算力消耗爆炸。但文檔圖像中大量是空白背景,算力浪費嚴重。

      PaddleOCR團隊的解法很巧妙:別一開始就處理整張圖,先找到重點

      他們提出了“由粗到細”(Coarse-to-Fine)架構:先用一個輕量級的有效區域聚焦模塊(VRFM)定位文檔中的關鍵區域,再讓0.9B的模型只處理這些區域。

      結果,視覺Token數量只有競品的1/3到1/2,精度反而更高。如前所述,在OmniDocBench V1.5權威榜單上,PaddleOCR-VL以92.62分的綜合成績登頂全球第一。



      總結來看,PaddleOCR的反超是技術代際更替的必然。

      為什么AI廠商都在搶OCR?

      如果把過去半年AI圈的熱鬧拉出一條時間線,會發現一個清晰的現象:

      近半年,從巨頭到創業公司,國內外OCR賽道迎來集體爆發。

      2025年10月,百度PaddleOCR-VL、DeepSeek-OCR、Allen AI olmOCR-2、Nanonets-OCR2-3B、dots.ocr.base幾乎同時發布。

      抱抱臉模型趨勢榜一度被OCR模型“屠榜”。

      到了11月,騰訊HunyuanOCR問世;12月,Mistral OCR 3發布。

      2026年1月,LightOnOCR-2、DeepSeek-OCR-2、百度PaddleOCR-VL-1.5接踵而至。

      2月,智譜GLM-OCR發布;3月,小紅書FireRed-OCR加入戰局。



      為什么這么卷?兩個字:數據

      互聯網公開的高質量數據快被“啃”完,模型訓練面臨數據虧空。行業廣泛判斷,大量有價值信息仍沉淀在文檔、書籍、合同、表格、掃描件等離線載體中。

      OCR就是那把鑰匙。

      這些海量非結構化信息,無法直接被大模型理解與利用,必須經過OCR,將圖像中的文字、版面結構、表格、公式等轉化為機器可處理的電子化文本。

      所以OCR的身份正在被重寫:

      從早期依賴手工規則的掃描小幫手,到特征工程與深度學習驅動的高精度字符識別工具,再到如今與Transformer和Agent深度融合的新階段,它早已跳出“辦公室里的文檔提取器”定位。

      現在,它是大模型數據生態的基座,是Agent理解真實世界的“眼睛”,是大模型變聰明的“鑰匙”



      就連啟蒙全球千萬學習者的AI大牛吳恩達,今年年初推出的新課程也是聚焦OCR。課程內容就是關于智能體文檔提取(Agent Doc Extraction),也就是教你怎么給OCR裝上智能體大腦。

      當各家大模型的參數規模越來越接近,決勝的關鍵反而回到了最底層的數據獲取與處理能力。誰擁有更強的OCR能力,誰就掌握了現實世界的信息入口,誰就能為自己的大模型提供源源不斷的高質量養料。

      PaddleOCR的登頂,正是這場角色轉換中最具標志性的事件之一。

      更值得關注的是,這場競爭才剛剛開了個頭。

      未來,OCR的比拼會越來越“鉆”。可以想象的一種方向是場景化,不再追求大而全,而是把金融票據、醫療檔案、教育試卷等垂直場景做深做透;另一種是端云協同,輕量模型跑在手機、掃描儀上,本地快速識別,云端精準優化,既省算力又保隱私。

      更大的想象空間在于OCR和多模態大模型、Agent更深度地融合,我們或許能看到真正的“全能信息處理助手”。

      PaddleOCR的登頂,為中國廠商在OCR賽道拿下了領先身位。它背后折射出的,是中國開源整體實力和全球影響力的加速趕超。

      從底層基礎設施到前沿技術突破,中國開源正在越來越多的賽道上拿出世界級的表現。OCR,只是其中一塊拼圖。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      男孩偷自行車后續:被通報全校社死,寶媽拒不道歉,婆婆主動賠罪

      男孩偷自行車后續:被通報全校社死,寶媽拒不道歉,婆婆主動賠罪

      潮鹿逐夢
      2026-04-07 11:42:53
      “最后期限”將至,特朗普的底牌已被看穿 | 京釀館

      “最后期限”將至,特朗普的底牌已被看穿 | 京釀館

      新京報
      2026-04-07 12:09:08
      沙特突發, 關鍵大橋交通中斷! 油價大漲

      沙特突發, 關鍵大橋交通中斷! 油價大漲

      每日經濟新聞
      2026-04-07 16:42:09
      明早或發生史上最猛轟炸:川普稱不妥協將4小時摧毀伊朗,跟中午·

      明早或發生史上最猛轟炸:川普稱不妥協將4小時摧毀伊朗,跟中午·

      邵旭峰域
      2026-04-07 15:15:50
      游客稱7人點3盆米飯被收78元,華陰市監局介入,飯店:小份米飯3元,大盆米飯約8小碗,用五常大米和礦泉水蒸煮

      游客稱7人點3盆米飯被收78元,華陰市監局介入,飯店:小份米飯3元,大盆米飯約8小碗,用五常大米和礦泉水蒸煮

      瀟湘晨報
      2026-04-07 17:12:51
      伊朗稱部署雙聯裝導彈發射裝置 “打擊規模將翻倍”

      伊朗稱部署雙聯裝導彈發射裝置 “打擊規模將翻倍”

      財聯社
      2026-04-07 21:48:12
      39歲男子考研落榜后舉報復試第一,考生候考時,該考生曾被工作人員叫離座位,返回后手中持有文件夾并翻閱,華東師大回應:調查小組正在調查

      39歲男子考研落榜后舉報復試第一,考生候考時,該考生曾被工作人員叫離座位,返回后手中持有文件夾并翻閱,華東師大回應:調查小組正在調查

      觀威海
      2026-04-07 16:39:02
      李小林被查!鐵血軍魂不許玷污一聲驚雷,又一只“老虎”應聲落馬

      李小林被查!鐵血軍魂不許玷污一聲驚雷,又一只“老虎”應聲落馬

      觸摸史跡
      2026-04-07 18:20:41
      賽力斯:公司不承擔其他品牌門店的建店、運營相關費用

      賽力斯:公司不承擔其他品牌門店的建店、運營相關費用

      每日經濟新聞
      2026-04-07 15:53:45
      “中國紫檀女王”陳麗華逝世,曾是中國女首富,47歲時倒追“唐僧”遲重瑞,晚年每天生活費10元

      “中國紫檀女王”陳麗華逝世,曾是中國女首富,47歲時倒追“唐僧”遲重瑞,晚年每天生活費10元

      極目新聞
      2026-04-07 12:39:33
      真夠狠!以色列提前動手大殺四方,伊朗損失慘重

      真夠狠!以色列提前動手大殺四方,伊朗損失慘重

      史政先鋒
      2026-04-07 21:03:17
      博弈白熱化,霍爾木茲要變天了

      博弈白熱化,霍爾木茲要變天了

      南風窗
      2026-04-07 14:58:27
      突發! 沙特遭襲 年產量約6000萬噸 石化基地發生爆炸

      突發! 沙特遭襲 年產量約6000萬噸 石化基地發生爆炸

      每日經濟新聞
      2026-04-07 10:18:32
      監控系統出現漏洞,300多人 被帶走?海康威視回應

      監控系統出現漏洞,300多人 被帶走?海康威視回應

      每日經濟新聞
      2026-04-07 15:06:19
      73歲遲重瑞近況:賣故宮旁自家房子,均價15萬,陳麗華嫁他好福氣

      73歲遲重瑞近況:賣故宮旁自家房子,均價15萬,陳麗華嫁他好福氣

      一娛三分地
      2026-02-19 17:04:30
      蘇萊曼尼親屬在美被捕的新聞,揭開了“離岸愛國”的內幕

      蘇萊曼尼親屬在美被捕的新聞,揭開了“離岸愛國”的內幕

      清書先生
      2026-04-07 17:40:31
      身價千億的陳麗華女士走了。
她不是因為年紀太大

      身價千億的陳麗華女士走了。 她不是因為年紀太大

      果媽聊娛樂
      2026-04-07 15:10:46
      重磅!慢特病新規4月1日實施:13種病報銷比例高達95%

      重磅!慢特病新規4月1日實施:13種病報銷比例高達95%

      老特有話說
      2026-04-07 20:47:38
      鄭麗文剛落地上海,就傳出不尋常信號!6天后,兩岸會有大動作?

      鄭麗文剛落地上海,就傳出不尋常信號!6天后,兩岸會有大動作?

      閆樹軍論評
      2026-04-07 16:29:13
      岳西失蹤孩子案告破,樓上鄰居落網,提前踩點選盲區,親屬參與了

      岳西失蹤孩子案告破,樓上鄰居落網,提前踩點選盲區,親屬參與了

      天天熱點見聞
      2026-04-07 12:29:59
      2026-04-07 23:16:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12434文章數 176445關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

      頭條要聞

      特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      房產
      時尚
      親子
      本地
      軍事航空

      房產要聞

      重磅!三亞擬出安居房新政!

      還是這些穿搭適合初春季節!外套不多買、常穿裙子,優雅舒適

      親子要聞

      科普|科學備孕,需要做好哪些孕前檢查?

      本地新聞

      跟著歌聲游安徽,聽古村回響

      軍事要聞

      美軍營救飛行員出動155架飛機

      無障礙瀏覽 進入關懷版