<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      MinerU 再次改變 OCR,5 倍提升

      0
      分享至

      關(guān)于 OCR 這個話題,我之前寫過不少:

      今天這篇要聊的東西可能是 OCR 領(lǐng)域近年來最大的范式轉(zhuǎn)換,MinerU 團(tuán)隊用擴(kuò)散模型重新定義了文檔 OCR 的解碼方式

      MinerU:OCR 領(lǐng)域的扛把子

      先說說 MinerU 這個項目在 OCR 圈子的地位

      MinerU 由上海人工智能實驗室的 OpenDataLab 團(tuán)隊開發(fā),最初誕生于 InternLM 大模型的預(yù)訓(xùn)練數(shù)據(jù)處理過程中

      做過 RAG 的朋友應(yīng)該都知道,文檔解析是 RAG 流水線上最關(guān)鍵的一環(huán)——你的知識庫質(zhì)量上限,就取決于你的文檔解析能力

      而 MinerU 幾乎是開源文檔解析工具的事實標(biāo)準(zhǔn):

      • 全格式覆蓋:支持 PDF、圖片、DOCX 輸入,輸出 Markdown 和 JSON

      • 109 種語言的 OCR 支持

      • 全平臺兼容:Windows、Linux、Mac,CPU/GPU/NPU/MPS 都能跑

      • 功能全面:自動去除頁眉頁腳頁碼、保留文檔結(jié)構(gòu)、提取表格公式、處理復(fù)雜多欄布局

      剛剛,MinerU 發(fā)布了3.0.0 大版本更新——新增了原生 DOCX 解析、pipeline 后端在 OmniDocBench v1.5 上得分達(dá)到 86.2,上線了多 GPU 部署路由

      更關(guān)鍵的是,MinerU 的 VLM 版本 MinerU2.5 在 OmniDocBench 等權(quán)威 Benchmark 上一直是各路 OCR 模型的對標(biāo)基準(zhǔn)。

      新范式:用 Diffusion 重新思考 OCR

      好了,鋪墊完背景,來說今天的主角——MinerU-Diffusion

      這是 MinerU 團(tuán)隊在 3 月 24 日放出的全新框架,論文標(biāo)題非常到位:

      Rethinking Document OCR as Inverse Rendering via Diffusion Decoding(將文檔 OCR 重新定義為通過擴(kuò)散解碼的逆渲染問題)

      一句話總結(jié):把傳統(tǒng)的自回歸(從左到右一個字一個字吐)解碼,換成了并行的擴(kuò)散去噪解碼

      這個思路非常有意思

      為什么自回歸解碼不適合 OCR?

      現(xiàn)在主流的 OCR 方案,本質(zhì)上都是一個路子:視覺編碼器把圖片變成特征,然后語言模型一個 token 一個 token 地從左到右生成文字

      這個架構(gòu)有三個致命問題:

      1. 速度瓶頸

      自回歸解碼是串行的——生成第 100 個 token 必須等前 99 個都完成。

      文檔越長,越慢,延遲線性增長。

      2. 錯誤累積

      前面錯了一個,后面大概率跟著錯。

      就像多米諾骨牌,一倒一片。

      對于長文檔、復(fù)雜表格和公式這種動輒幾千 token 的場景,這個問題尤為致命。

      3. 依賴語言先驗而非視覺證據(jù)

      這是論文中最犀利的觀察

      自回歸模型在解碼時會不自覺地依賴"語義補(bǔ)全"——它更多是靠上下文猜接下來的字是什么,而非認(rèn)真看圖片上寫的是什么

      論文專門設(shè)計了一個Semantic Shuffle測試來證明這個問題:把文檔中的單詞打亂順序,重新排版成圖片,讓模型去識別。

      結(jié)果自回歸模型的準(zhǔn)確率隨著打亂程度直線下跌,而擴(kuò)散模型基本紋絲不動。

      下圖就是 Semantic Shuffle 測試的結(jié)果,可以清楚看到 AR(自回歸)和 Diffusion(擴(kuò)散)兩種解碼方式面對語義打亂時的表現(xiàn)差異:


      Semantic Shuffle 測試結(jié)果

      這說明什么?自回歸模型做 OCR 時有很大程度上是在"理解"文本然后"猜"出來的。而 OCR 的本質(zhì)應(yīng)該是忠實地"看"圖片上寫了什么,跟文字有沒有語義無關(guān)。

      MinerU-Diffusion 如何解題?

      MinerU-Diffusion 的核心思想是:把 OCR 看作"逆渲染"

      什么意思?文檔渲染是:結(jié)構(gòu)化文本 → 2D 圖片

      OCR 就是反過來:2D 圖片 → 結(jié)構(gòu)化文本

      既然渲染過程不需要從左到右逐字生成,OCR 解碼憑什么必須從左到右?

      下圖展示了自回歸解碼和擴(kuò)散解碼兩種方式的對比:


      自回歸 vs 擴(kuò)散解碼

      基于這個洞察,MinerU-Diffusion 設(shè)計了三大核心技術(shù):

      1. Block-wise 分塊擴(kuò)散解碼器

      不搞全局的擴(kuò)散(那樣計算量太大),把輸出序列分成若干個 Block。Block 內(nèi)部用擴(kuò)散并行生成,Block 之間保留粗粒度的自回歸結(jié)構(gòu),兼顧了效率和全局一致性。

      擴(kuò)散解碼的過程如下——黑色 token 是已確認(rèn)的,紅色 token 正在更新,黃色 token 是未處理的 mask,整個過程是并行推進(jìn)的:


      擴(kuò)散解碼過程

      2. 不確定性驅(qū)動的兩階段課程學(xué)習(xí)

      訓(xùn)練分兩步走:

      • 第一階段:用大規(guī)模多樣化數(shù)據(jù)建立基礎(chǔ)能力(約 750 萬樣本)

      • 第二階段:通過多次推理找出模型"不確定"的硬骨頭樣本,人工精標(biāo)后重點訓(xùn)練

      這個策略非常聰明。擴(kuò)散模型的訓(xùn)練比自回歸更不穩(wěn)定,數(shù)據(jù)利用效率也更低,分階段先建立基本功、再專攻難點,是一個務(wù)實的工程選擇。

      下圖展示了 MinerU-Diffusion 的訓(xùn)練架構(gòu)——左側(cè)是 mask 訓(xùn)練過程,右側(cè)是 Block 注意力機(jī)制的結(jié)構(gòu):


      訓(xùn)練架構(gòu)

      3. 動態(tài)置信度調(diào)度

      解碼時,模型會根據(jù)每個 token 的置信度動態(tài)決定是否"落筆確認(rèn)"。高置信的直接定了,低置信的繼續(xù)去噪。這個閾值就像一個"旋鈕",可以在速度和精度之間靈活調(diào)節(jié)。

      跑分:快 3 倍,準(zhǔn)確率不掉

      直接看數(shù)據(jù):

      在 OmniDocBench v1.5 評測中(帶 GT Layout),以 τ=0.97 動態(tài)解碼對比:

      指標(biāo)

      MinerU2.5 (自回歸)

      MinerU-Diffusion (擴(kuò)散, τ=0.97)

      Overall ↑

      Text Edit ↓

      Formula CDM ↑

      Table TEDS ↑

      吞吐量 TPS

      Overall 分?jǐn)?shù)幾乎一模一樣,但吞吐量接近 2 倍!

      而且這還只是置信度閾值 0.97 的結(jié)果

      調(diào)到 0.95(Overall 93.37,精度與 MinerU2.5 幾乎無差),吞吐量達(dá)到 108.9 TPS,2.1 倍加速

      再放到 0.6,164.8 TPS,3.26 倍加速,準(zhǔn)確率仍然超過 90%

      下面這張圖非常直觀地展示了精度-吞吐量的權(quán)衡曲線:


      精度-吞吐量權(quán)衡

      在公式識別和表格識別上,MinerU-Diffusion 也表現(xiàn)出色:

      • 公式識別(UniMER-Test):CPE 91.6 / HWE 91.6 / SCE 92.0 / SPE 96.8,全面碾壓 GPT-4o(CPE 82.7 / HWE 85.9 / SCE 87.8),每個指標(biāo)都領(lǐng)先 4~9 分

      • 表格識別(OCRBench v2):TEDS 81.18 / TEDS-S 88.66,跟一眾 AR 模型不相上下

      效果展示:看看擴(kuò)散解碼到底怎么工作的

      光看數(shù)字不過癮,論文里給了大量的定性示例,非常直觀

      端到端文檔解析效果

      下面展示幾種典型文檔頁面的完整識別結(jié)果,每組從左到右分別是:原始頁面、布局檢測結(jié)果、最終解析渲染輸出。

      學(xué)術(shù)論文頁面——包含表格、圖片、標(biāo)題、公式等復(fù)雜元素,布局檢測精確,解析結(jié)果完整保留了文檔結(jié)構(gòu):


      學(xué)術(shù)論文解析 - 原始輸入學(xué)術(shù)論文解析 - 布局檢測學(xué)術(shù)論文解析 - 渲染輸出

      報紙版面——密集的多欄排版,閱讀順序正確恢復(fù):


      報紙解析 - 原始輸入報紙解析 - 布局檢測

      公式密集的試卷——大量數(shù)學(xué)公式精準(zhǔn)識別為 LaTeX:


      試卷解析 - 原始輸入試卷解析 - 布局檢測試卷解析 - 渲染輸出

      擴(kuò)散解碼的漸進(jìn)生成過程

      這組圖更有意思——展示了擴(kuò)散解碼器在不同任務(wù)上是怎么"一步步去噪"的

      上面是原始輸入,下面是解碼過程的可視化,可以看到 token 從 mask 狀態(tài)逐步被確認(rèn)的全過程。

      布局檢測的擴(kuò)散解碼——模型逐步確認(rèn)頁面各區(qū)域的位置和類別:


      布局解碼示例1-輸入布局解碼示例1-過程

      文本識別的擴(kuò)散解碼——文字從 mask 中并行"浮現(xiàn)"出來:


      文本解碼示例-輸入文本解碼示例-過程

      表格識別的擴(kuò)散解碼——表格結(jié)構(gòu)和內(nèi)容同步恢復(fù):


      表格解碼示例-輸入表格解碼示例-過程

      公式識別的擴(kuò)散解碼——LaTeX 符號從噪聲中逐步精確還原:


      公式解碼示例-輸入公式解碼示例-過程

      可以看到,擴(kuò)散解碼是全局并行推進(jìn)的——不像自回歸那樣從左上角一路寫到右下角,而是整個頁面同時"顯影"。這種解碼模式天然適合文檔這種二維空間結(jié)構(gòu)。

      模型規(guī)格與使用

      MinerU-Diffusion-V1 是一個2.5B 參數(shù)的模型,支持四種任務(wù):

      Prompt 類型

      功能

      輸出格式

      Layout Detection

      頁面級布局解析

      邊界框 + 標(biāo)簽

      Text Recognition

      純文本 OCR

      原始 OCR 文本

      Formula Recognition

      公式提取

      LaTeX

      Table Recognition

      表格提取

      OTSL 結(jié)構(gòu)化表格

      支持三種推理引擎:HuggingFace TransformersNano-DVLM(單 GPU 推理)、SGLang(高性能服務(wù)化部署)。

      快速上手

      安裝環(huán)境:

      conda create -n dmineru python=3.12 -y
      conda activate dmineru


      pip install torch==2.8.0 torchvision==0.23.0 torchaudio==2.8.0 --index-url https://download.pytorch.org/whl/cu128
      pip install "transformers>=4.52.1"
      # flash-attn 需要單獨安裝預(yù)編譯 wheel(需匹配 CUDA/PyTorch 版本)
      wget https://github.com/Dao-AILab/flash-attention/releases/download/v2.8.3/flash_attn-2.8.3+cu12torch2.8cxx11abiFALSE-cp312-cp312-linux_x86_64.whl
      pip install flash_attn-2.8.3+cu12torch2.8cxx11abiFALSE-cp312-cp312-linux_x86_64.whl
      pip install -r requirements.txt

      用 Transformers 跑一下:

      import torch
      from transformers import AutoModel, AutoProcessor, AutoTokenizer

      model_id = "opendatalab/MinerU-Diffusion-V1-0320-2.5B"
      image_path = "path/to/page.png"

      tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
      processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True, use_fast=False)
      model = AutoModel.from_pretrained(
      model_id, trust_remote_code=True,
      torch_dtype=torch.bfloat16, low_cpu_mem_usage=True
      ).eval().to("cuda")

      messages = [
      {"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]},
      {"role": "user", "content": [
      {"type": "image", "image": image_path},
      {"type": "text", "text": "\nText Recognition:"},
      ]},
      ]

      prompt_text = processor.apply_chat_template(messages, add_generation_prompt=True)
      if isinstance(prompt_text, tuple):
      prompt_text = prompt_text[0]

      inputs = processor(images=[image_path], text=prompt_text, truncation=True, max_length=4096, return_tensors="pt")
      input_ids = inputs["input_ids"].to(torch.long).to("cuda")
      pixel_values = inputs["pixel_values"].to(torch.bfloat16).to("cuda")
      image_grid_thw = inputs.get("image_grid_thw")
      if image_grid_thw isnotNone:
      image_grid_thw = image_grid_thw.to(torch.long).to("cuda")

      with torch.no_grad():
      outputs = model.generate(
      pixel_values=pixel_values,
      image_grid_thw=image_grid_thw,
      input_ids=input_ids,
      mask_token_id=tokenizer.convert_tokens_to_ids("<|MASK|>"),
      denoising_steps=32,
      gen_length=1024,
      block_length=32,
      temperature=1.0,
      remasking_strategy="low_confidence_dynamic",
      dynamic_threshold=0.95,
      tokenizer=tokenizer,
      stopping_criteria=["<|endoftext|>", "<|im_end|>"],
      )

      output_ids = outputs[0] if isinstance(outputs, tuple) else outputs
      text = tokenizer.decode(output_ids[0], skip_special_tokens=False)
      for stop in ("<|endoftext|>", "<|im_end|>"):
      text = text.split(stop, 1)[0]
      print(text.strip())

      端到端頁面解析也支持:

      cd /path/to/MinerU-Diffusion
      MODEL_PATH=/path/to/model \
      IMAGE_PATH=/path/to/input-page.png \
      OUTPUT_PATH=/path/to/output.md \
      bash scripts/run_end2end.sh

      HuggingFace 上也有 Gradio Demo 可以直接體驗:MinerU-Diffusion Demo

      這個項目的意義,在我看來不只是"一個更快的 OCR 模型"。它驗證了一個根本性的觀點——OCR 的本質(zhì)是視覺任務(wù),解碼方式應(yīng)該與任務(wù)本質(zhì)對齊。自回歸解碼是語言模型的標(biāo)配,但 OCR 不是語言生成——你是在讀圖片,不是在寫文章。

      MinerU 團(tuán)隊從 MinerU 到 MinerU2.5 再到今天的 MinerU-Diffusion,一路走來持續(xù)在 OCR 領(lǐng)域推動技術(shù)前沿。這次用 Diffusion 思路來解 OCR,確實是一步好棋。

      制作不易,如果這篇文章覺得對你有用,可否點個關(guān)注。給我個三連擊:點贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      重要突破,科學(xué)家注射一個腫瘤細(xì)胞,全身癌細(xì)胞竟然消失

      重要突破,科學(xué)家注射一個腫瘤細(xì)胞,全身癌細(xì)胞竟然消失

      心中的麥田
      2026-04-19 18:26:11
      美國至少10名科研人員離奇死亡或神秘失蹤引發(fā)廣泛關(guān)注!大都接觸UFO、航空航天、原子能等涉密項目,白宮承諾:徹查

      美國至少10名科研人員離奇死亡或神秘失蹤引發(fā)廣泛關(guān)注!大都接觸UFO、航空航天、原子能等涉密項目,白宮承諾:徹查

      大風(fēng)新聞
      2026-04-20 09:35:11
      特朗普第一任期的白宮律師突然爆猛料:特朗普已經(jīng)撐不下去了

      特朗普第一任期的白宮律師突然爆猛料:特朗普已經(jīng)撐不下去了

      西樓知趣雜談
      2026-04-19 21:25:23
      快檢查自家陽臺!有人家里已大量出現(xiàn),官方提醒:千萬別摸

      快檢查自家陽臺!有人家里已大量出現(xiàn),官方提醒:千萬別摸

      環(huán)球網(wǎng)資訊
      2026-04-18 16:23:18
      伊朗總統(tǒng):美國持續(xù)背信棄義 做出霸凌且不合理行為

      伊朗總統(tǒng):美國持續(xù)背信棄義 做出霸凌且不合理行為

      中國網(wǎng)
      2026-04-20 11:09:10
      普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

      普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

      田園小歸
      2026-04-20 09:17:43
      爭議?對手疑似伸腿踹張雪機(jī)車惹怒中國網(wǎng)友 張雪:很正常+很干凈

      爭議?對手疑似伸腿踹張雪機(jī)車惹怒中國網(wǎng)友 張雪:很正常+很干凈

      風(fēng)過鄉(xiāng)
      2026-04-20 06:45:19
      斯諾克世錦賽:丁俊暉送大禮!吉爾伯特被罰12分逆轉(zhuǎn),僅2-3落后

      斯諾克世錦賽:丁俊暉送大禮!吉爾伯特被罰12分逆轉(zhuǎn),僅2-3落后

      劉姚堯的文字城堡
      2026-04-19 19:17:56
      學(xué)術(shù)不端是學(xué)術(shù)晉級的最快捷徑

      學(xué)術(shù)不端是學(xué)術(shù)晉級的最快捷徑

      必記本
      2026-04-19 22:50:38
      王金平力挺了鄭麗文后,連勝文發(fā)聲了,竟主動為朱立倫證實1件事

      王金平力挺了鄭麗文后,連勝文發(fā)聲了,竟主動為朱立倫證實1件事

      瀲滟晴方DAY
      2026-04-20 06:55:07
      研究發(fā)現(xiàn):脂肪肝人若常補(bǔ)B族維生素,用不了多久,身體或有3好處

      研究發(fā)現(xiàn):脂肪肝人若常補(bǔ)B族維生素,用不了多久,身體或有3好處

      小胡軍事愛好
      2026-03-05 20:56:45
      季后賽首秀35分!就在今天,一項鄧肯保持的NBA紀(jì)錄被文班打破了

      季后賽首秀35分!就在今天,一項鄧肯保持的NBA紀(jì)錄被文班打破了

      世界體育圈
      2026-04-20 12:45:16
      魏建軍提議私家車10年后再年檢,用OBD和車聯(lián)網(wǎng)替代實地檢測

      魏建軍提議私家車10年后再年檢,用OBD和車聯(lián)網(wǎng)替代實地檢測

      快科技
      2026-04-19 08:19:03
      為什么全國人民都在拒接電話?

      為什么全國人民都在拒接電話?

      黯泉
      2026-04-18 17:00:56
      中國永遠(yuǎn)的校長,死于1962年

      中國永遠(yuǎn)的校長,死于1962年

      最愛歷史
      2024-05-20 13:30:17
      隨著巴黎圣日耳曼爆大冷門1-2,法甲最新積分榜出爐:爭冠白熱化

      隨著巴黎圣日耳曼爆大冷門1-2,法甲最新積分榜出爐:爭冠白熱化

      側(cè)身凌空斬
      2026-04-20 07:55:12
      上海長征醫(yī)院浦東院區(qū)啟用,緊鄰9號線曹路站!明后天推出院內(nèi)大型義診

      上海長征醫(yī)院浦東院區(qū)啟用,緊鄰9號線曹路站!明后天推出院內(nèi)大型義診

      上觀新聞
      2026-04-20 11:18:09
      前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢倒下就是紅牌

      前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢倒下就是紅牌

      懂球帝
      2026-04-20 08:00:07
      字母哥離隊倒計時!四隊瘋搶,雄鹿超市即將開張

      字母哥離隊倒計時!四隊瘋搶,雄鹿超市即將開張

      茅塞盾開本尊
      2026-04-20 12:22:09
      于海青:為何說廣東黃坤明書記不斷下基層讓企業(yè)信心滿滿?

      于海青:為何說廣東黃坤明書記不斷下基層讓企業(yè)信心滿滿?

      于海青
      2026-04-19 19:54:18
      2026-04-20 12:59:00
      Ai學(xué)習(xí)的老章 incentive-icons
      Ai學(xué)習(xí)的老章
      Ai學(xué)習(xí)的老章
      3334文章數(shù) 11137關(guān)注度
      往期回顧 全部

      科技要聞

      藍(lán)色起源一級火箭完美回收 客戶衛(wèi)星未入軌

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      體育要聞

      七大獎項候選官宣!文班或全票DPOY

      娛樂要聞

      鹿晗生日上熱搜,被關(guān)曉彤撕下體面

      財經(jīng)要聞

      月之暗面IPO迷局

      汽車要聞

      把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態(tài)度原創(chuàng)

      親子
      家居
      數(shù)碼
      本地
      公開課

      親子要聞

      女孩兒學(xué)壞,多半栽在初中

      家居要聞

      自然慢調(diào) 慢享時光

      數(shù)碼要聞

      華為全新鴻蒙電腦搭載云晰柔光屏,硬件級低藍(lán)光,今日下午發(fā)布

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級偵探添亂

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版