網易首頁 > 網易號 > 正文申請入駐

上海AI實驗室突破：零參數增長實現文檔解析性能提升2.71分突破

2026-04-14 20:04:40　來源: 科技行者

天津舉報

分享至

這項由上海人工智能實驗室聯合北京大學、上海交通大學等機構開展的研究于2026年4月發表在arXiv預印本平臺，論文編號為arXiv:2604.04771v1。這項研究挑戰了當前AI領域的一個主流觀念：要提升模型性能，就必須設計更復雜的架構或增加更多參數。

想象一下，你有一個聰明的助手，它能夠讀懂各種文檔，比如學術論文、報告、表格等，并把這些內容完美地轉換成計算機能理解的格式。這就是文檔解析技術要做的事情。就像人類閱讀文檔時需要識別標題、正文、表格、公式一樣，AI模型也需要具備這種能力。

在AI研究領域，大多數團隊都在忙著設計更復雜的模型架構，就像不斷給一臺機器添加更多零件來提升性能。然而，上海人工智能實驗室的研究團隊卻選擇了一條截然不同的道路。他們發現，當前文檔解析技術的性能瓶頸并不在于模型架構本身，而在于訓練數據的質量問題。

這個發現來源于一次有趣的觀察。研究團隊對多個頂級文檔解析模型進行了深入分析，這些模型雖然采用了不同的架構設計和參數規模，但在處理同一批困難樣本時，竟然表現出了驚人相似的失敗模式。這就好比幾位不同專業背景的醫生在診斷同一種罕見疾病時都束手無策，問題顯然不在于某個醫生的專業能力，而在于他們都缺乏足夠的相關病例訓練。

基于這一洞察，研究團隊提出了MinerU2.5-Pro，這是一個完全基于數據工程優化的文檔解析系統。令人驚訝的是，他們保持了原有MinerU2.5模型的1.2B參數架構完全不變，僅僅通過重新設計數據收集、標注和訓練策略，就在權威評測基準OmniDocBench v1.6上實現了從92.98分到95.69分的顯著提升，增幅達到2.71分。

這項研究的核心創新在于構建了一個名為"數據引擎"的系統性框架。如果把傳統的數據處理方式比作隨意采摘蔬菜制作大鍋飯，那么這個數據引擎就像是一位經驗豐富的主廚，精心挑選食材、合理搭配營養、精細調味烹飪。整個數據引擎圍繞三個核心維度展開：覆蓋度、信息量和標注準確性。

一、突破傳統思維：為什么數據比架構更重要

當前的AI研究就像一場軍備競賽，各個團隊都在比拼誰能設計出更復雜、參數更多的模型。在文檔解析領域，這種趨勢同樣明顯。端到端的視覺語言模型正在逐步取代傳統的流水線系統，研究重點主要集中在架構創新和推理效率優化上。

然而，上海人工智能實驗室的研究團隊卻注意到了一個被普遍忽視的現象。他們對多個最先進的文檔解析模型進行了大規模交叉分析，這些模型包括不同架構類型和參數規模的系統。分析結果令人震驚：盡管這些模型在設計理念上截然不同，但它們在處理相同的困難樣本時表現出了高度一致的失敗模式。

這種現象就像是幾位來自不同醫學院的醫生，雖然接受了不同的教育體系和專業訓練，但在面對同一種罕見疾病時都無法準確診斷。這種一致性的失敗暗示問題的根源并不在于某種特定的架構缺陷，而在于所有模型都存在的共同短板。

深入分析后，研究團隊發現了兩個關鍵問題。第一個問題是覆蓋度不足。以MinerU2.5為例，其訓練數據總量還不到1000萬頁，而且數據分布嚴重偏向于高頻類別。就像醫學院的學生只見過感冒發燒這類常見病例，卻很少接觸到復雜的罕見病案例一樣，模型在處理復雜嵌套表格、密集公式布局等長尾場景時表現不佳。

第二個問題更加微妙，研究團隊稱之為"標注質量悖論"。那些對模型能力提升貢獻最大的困難樣本，恰恰是自動標注最不可靠的樣本。這就產生了一個惡性循環：模型最需要學習的內容，卻是訓練數據中質量最差的部分。復雜表格的結構化標注和密集公式的LaTeX轉錄都極易出錯，而這些標注錯誤會直接傳播到模型的行為中，形成系統性偏差。

研究團隊還發現了現有評估體系的盲點。OmniDocBench v1.5雖然是當前最權威的評估基準，但其中的困難樣本占比相對較少，而且元素匹配邏輯存在系統性偏好。這導致表面上的模型性能趨于飽和，但實際上是評估標準掩蓋了真正的性能差距。

基于這些深刻洞察，研究團隊得出了一個顛覆性結論：在模型架構日趨成熟的當下，系統性的數據工程已經成為推動文檔解析性能突破的主要杠桿。這不僅僅是一個技術判斷，更是對整個研究方向的重新思考。

二、數據引擎的精密設計：四大核心組件協同工作

MinerU2.5-Pro的核心創新是構建了一個高度集成的數據引擎系統。這個系統就像一座現代化的汽車制造工廠，每個環節都經過精心設計，各個組件協同工作，最終生產出高質量的訓練數據。

多樣性與難度感知采樣是數據引擎的第一個核心組件。傳統的數據采樣方式就像在菜市場隨意挑選食材，往往會導致某些常見食材過多，而稀有但營養價值高的食材卻嚴重不足。這個新的采樣策略則像一位經驗豐富的營養師，既要保證食材種類的多樣性，又要根據營養需求合理分配比例。

這個采樣過程分為兩個層次。在頁面級別，系統首先使用視覺特征提取器對所有文檔頁面進行編碼，生成512維的特征向量，然后通過聚類算法將相似的頁面歸為一組。這就像把海量的文檔按照版面風格進行分類，確保每種風格都有足夠的代表性。接著，系統會對每個聚類內的樣本進行難度評估，優先選擇那些具有挑戰性但又不是完全無法處理的樣本。

在元素級別，采樣策略變得更加精細。系統會從選定的頁面中提取文本塊、公式塊、表格塊等不同類型的元素，對每種元素類型獨立進行聚類和難度評估。這確保了最終的訓練數據在四個核心任務——布局檢測、文本識別、公式識別、表格識別——上都達到了多樣性與難度的平衡。

跨模型一致性驗證是第二個核心組件，負責對采樣得到的數據進行難度分層。這個過程就像邀請幾位不同專業背景的專家對同一道題目進行評分，通過專家意見的一致性來判斷題目的難度水平。

具體來說，系統會使用三個異構的最先進模型（MinerU2.5、PaddleOCR-VL、Qwen3-VL-30B）分別對同一個樣本進行解析，然后計算它們輸出結果的一致性。對于文本，使用編輯距離；對于表格，使用TEDS指標；對于公式，使用CDM指標。基于一致性模式，系統將每個樣本歸類為三個難度等級。

簡單樣本指的是MinerU2.5的輸出與至少一個外部模型高度一致的情況。這表明模型共識度高，解析結果可靠，但由于模型已經基本掌握了這類場景，其邊際訓練價值有限。中等樣本是指兩個外部模型彼此一致，但MinerU2.5的結果與它們差異較大的情況。這類數據最有訓練價值，因為它精確指出了MinerU2.5相對于同行的能力缺口。困難樣本則是所有三個模型的輸出都存在顯著差異的情況，表明這些樣本確實具有挑戰性，但其標注不可靠，需要進一步處理。

判斷與精煉標注流水線是第三個核心組件，專門處理那些困難樣本的標注質量問題。傳統的方法往往簡單地丟棄這些困難樣本，但研究團隊意識到這些樣本恰恰是突破性能瓶頸的關鍵。他們設計了一個創新的渲染驗證機制來解決這個問題。

這個機制的核心思想是打破文檔解析中的認知偏差。當模型被要求檢查自己的輸出時，往往會陷入確認偏差，傾向于接受自己的結果而忽略潛在錯誤。根本原因在于跨模態映射的不對稱性：模型善于從文檔圖像生成結構化序列，但難以從結構化序列反推視覺外觀。

為了解決這個問題，系統引入了渲染環節。對于LaTeX公式，系統會將其編譯成圖像；對于HTML表格，系統會將其渲染成表格圖像。然后，模型同時接收原始文檔圖像和渲染圖像作為配對輸入，進行視覺比較驅動的判斷和精煉。這種設計有兩個優勢：首先，它補全了從結構化文本到視覺布局的缺失映射，降低了模型在跨模態對齊過程中的認知負擔；其次，渲染的錯誤放大效應能將細微的文本域結構缺陷轉化為明顯的視覺異常，讓模型能夠像人類校對員一樣直觀地定位問題。

目標專家標注是第四個核心組件，負責處理那些即使經過判斷與精煉流水線仍然無法自動糾正的極端復雜樣本。與傳統的隨機抽樣人工標注不同，這個組件采用了高度針對性的預算分配策略。

標注優先級的分配遵循兩個原則。首先，那些判斷環節置信度高但精煉環節糾正不確定的樣本獲得最高優先級，因為錯誤位置已經被自動識別，標注人員只需要進行局部糾正，標注效率最高。其次，優先投入到當前模型最薄弱的子任務類別，通過跨模型一致性驗證的分歧模式確定，最大化有限標注預算對整體性能的邊際貢獻。

人工標注采用AI預標注加專家審閱糾正的工作流。預標注環節使用Gemini 3 Pro，選擇這個模型是因為其強大的多模態推理能力以及與跨模型一致性驗證模型池的獨立性，避免了數據泄露。自動化質量保證工具進一步確保標注一致性。相比MinerU2.5的隨機抽樣人工標注過程，標注目標從隨機樣本轉向了通過三階段過濾精確識別的子集，顯著提高了標注資源利用率。

整個數據引擎最終產生了分層數據集：約6550萬簡單和中等樣本通過跨模型一致性驗證自動標注，用于第一階段預訓練；19.2萬專家標注的困難樣本用于第二階段微調和第三階段強化學習對齊。

三、漸進式訓練策略：數據質量分層利用

有了高質量的分層數據，如何充分發揮這些數據的價值就成為了關鍵問題。MinerU2.5-Pro采用了一個三階段漸進式訓練策略，就像培養一名醫生的完整過程：先是醫學院的基礎教育，然后是臨床實習的專業訓練，最后是專科進修的精深提升。

第一階段是大規模文檔解析預訓練，這相當于為模型打下堅實的基礎。在這個階段，系統使用數據引擎產生的簡單和中等樣本，總計約6550萬個樣本。這些數據覆蓋了四個核心子任務：文本識別2100萬樣本、布局分析1400萬樣本、公式識別1300萬樣本、表格識別1150萬樣本，另外還有600萬圖像分析樣本。

各子任務之間的比例調整基于它們在OmniDocBench整體評分中的權重以及基線模型的性能差距。所有參數都參與訓練，語言模型的學習率設置為1×10??，視覺編碼器使用1×10??，批量大小為256，訓練一個輪次。相比MinerU2.5的第一階段預訓練（690萬樣本/輪次×2輪次），這個階段將數據規模擴大了近一個數量級（690萬→6550萬），同時通過多樣性與難度感知采樣和跨模型一致性驗證標注過濾，數據質量也得到了系統性改善。

第二階段是高質量監督微調，針對困難場景進行精準強化。雖然第一階段構建了全面的基礎能力，但在困難樣本上的性能差距依然存在。這個階段使用專家標注流水線產生的高質量困難樣本進行精確微調，同時通過混合第一階段訓練集的回放數據來防止災難性遺忘。

訓練集包含兩個部分：19.2萬高質量困難樣本和按比例采樣的第一階段訓練集回放數據。混合比例（困難:回放）根據子任務差異化設置：布局分析6:1、文本識別1:50、公式識別1:25、表格識別1:10、圖像分析1:4。這種非均勻混合策略反映了不同子任務在困難樣本數量和第一階段基礎表現上的差異。布局分析困難樣本較多且第一階段基礎扎實，需要較少回放；文本識別困難樣本稀缺且需要更多回放數據維持泛化能力。

訓練配置在第一階段模型基礎上，采用更低的學習率5×10??，批量大小128，訓練一個輪次。較低的學習率保護第一階段獲得的基礎能力，同時在困難場景上微調決策邊界。

第三階段是基于GRPO的強化學習對齊，彌補訓練目標與評估指標之間的差距。前兩個階段通過監督學習優化內容識別準確性，但交叉熵損失獨立優化每個token預測且平等權衡所有token，無法直接反映序列級別或結構級別的評估指標（編輯距離、CDM、TEDS、IoU）。

系統使用群組相對策略優化算法進行對齊。對每個輸入采樣G組候選輸出，直接使用任務特定的自動評估指標計算獎勵，通過組內相對優勢指導策略更新，無需獨立的獎勵模型。獎勵函數針對四個子任務分別設計，直接采用評估中使用的相同指標作為獎勵信號：文本識別用編輯距離，公式識別用CDM，表格識別用TEDS，布局檢測用類別IoU。這種設計直接對齊訓練優化目標與最終評估指標。

訓練數據從第二階段模型推理生成，并基于獎勵分布過濾：過高獎勵的樣本（模型飽和，無效學習信號）和過低獎勵的樣本（過難或標注錯誤）被移除，保留中等獎勵范圍以最大化有效策略梯度信號。所有訓練數據來自高質量專家標注集，確保獎勵信號可靠性。

訓練配置在第二階段模型基礎上，學習率1×10??，批量大小512，訓練一個輪次，每樣本G=16次推理。遵循DAPO方法，應用clip-higher穩定優勢估計和動態采樣丟棄零方差推理組。

整個三階段策略的核心理念是數據規模到數據質量的漸進過渡，依次利用數據引擎在不同質量層級產生的數據，實現從廣覆蓋基礎能力到針對性難點突破再到指標級別精準對齊的完整訓練路徑。

四、評估體系升級：OmniDocBench v1.6的公平性改進

在推進模型性能的同時，研究團隊也發現了現有評估體系的局限性。隨著頂級文檔解析模型在OmniDocBench v1.5上的得分趨于收斂，兩個基礎問題限制了評估的有效性：匹配策略偏差和困難樣本覆蓋不足。

匹配策略偏差是一個容易被忽視但影響深遠的問題。v1.5采用固定粒度的一對一元素匹配，這種方式會暗中懲罰那些輸出分割策略與標準答案不同的系統，即使解析的內容完全正確。比如一個多行公式被標注為跨越k行的單個塊，如果某個模型產生了相同的LaTeX內容但將其分割為k-1個或k個獨立塊，v1.5的評分就會從滿分驟降至接近零分，盡管語義上輸出完全正確。

類似的問題也出現在密集文本區域：一個被標注為單個塊的區域可能被模型逐行預測，甚至識別為表格形式。在后一種情況下，v1.5會給零分，因為沒有文本元素可以匹配，但實際上表格形式的輸出可能包含了完全相同的文字內容。這些粒度依賴的評分偏差使得跨系統比較變得不可靠。

為了解決這個問題，研究團隊提出了多粒度自適應匹配機制。其核心原則是保持標準答案不變，只在預測端搜索最優分割粒度。給定標準答案元素集合G和預測元素集合P，MGAM通過三個階段生成候選匹配方案并選擇全局最優解。

第一階段是直接二分圖匹配，在原始粒度上直接求解最優二分圖匹配。使用成本矩陣作為輸入，匈牙利算法求解最小成本匹配，產生第一個候選匹配和聚合評分。

第二階段是預測分割加二分圖匹配，將每個預測元素在LaTeX換行分隔符處分割，產生細粒度預測集合。沒有可分割分隔符的預測元素保持不變。在細粒度預測集合和標準答案上重新求解二分圖匹配，產生第二個候選匹配和聚合評分。

第三階段是分區枚舉加二分圖匹配，因為第二階段的分割可能過于細致，而標注粒度不一定是逐行而可能是1到k行之間的任意中間粒度。為了涵蓋所有可能的合并方案，系統枚舉細粒度預測元素的所有有效有序分區。具體而言，對n'個細粒度預測元素，相鄰元素間有n'-1個間隙，每個間隙可以是"分割"或"合并"，產生2^(n'-1)種分區方案。每個分區將細粒度預測集合劃分為K個連續塊，第k個塊通過按原序連接得到。對每個分區，在合并塊集合和標準答案間執行二分圖匹配，選擇最佳匹配分數的分區作為第三個候選匹配和聚合評分。

全局最優選擇階段從三個階段中選擇聚合評分最高的匹配作為最終匹配，基于最終匹配計算任務特定指標。

密集文本匹配的處理類似，因為粒度不匹配問題不僅限于公式。對密集文本區域，預測端和標注端同樣會在是否將多個文本段合并為一個大文本框或分割為多個小文本框上存在差異。系統對文本元素重用MGAM算法，以編輯距離作為相似性指標。此外，如果模型將文本區域識別為表格（對密集結構化文本來說并不少見），系統會將表格轉換回純文本并納入相同匹配流水線，避免由于格式偏好差異導致的不公平懲罰。

通過MGAM，評估變得對輸出粒度和格式偏好中性，消除了跨系統評分差異的系統性來源。

困難樣本覆蓋不足是另一個關鍵問題。通過數據引擎提供的大規模難度分層，研究團隊發現被標記為困難的樣本在v1.5評估集中幾乎不存在。基準主要測量低到中等難度文檔上的性能，導致頂級模型緊密聚類，判別力遞減。

為了填補困難場景的覆蓋缺口，研究團隊構建了一個包含296頁的困難子集，從數據引擎難度分層過程中標記為困難的數據池中選取。樣本選擇覆蓋文檔解析中最具挑戰性的場景類別，包括復雜嵌套表格、密集數學公式布局和非常規版面結構。所有困難子集樣本都從MinerU2.5-Pro的每個訓練階段（包括判斷與精煉訓練數據）中排除，由專業團隊標注并進行標注者間交叉驗證以確保標準答案質量。

OmniDocBench v1.6建立了基礎/困難/完整三層評估協議。基礎子集保持原始v1.5評估集以維持與歷史結果的可比性。困難子集提供對頂級模型飽和的標準評估的更敏感測量。完整子集是兩者的完整聯合，提供綜合性能評估。

五、突破性實驗結果與深度分析

MinerU2.5-Pro的實驗結果證實了數據工程優化的巨大潛力。在OmniDocBench v1.6完整集上，MinerU2.5-Pro達到95.69分，相比相同架構的MinerU2.5基線（92.98分）提升2.71分，確認所有性能增益都來自數據層面改進。

更細致的分析顯示了三層評估協議的不同表現特征。在基礎子集上，前三名模型（GLM-OCR 96.19、MinerU2.5-Pro 96.12、PaddleOCR-VL-1.5 95.72）分數緊密分布在0.5分范圍內，表明標準場景接近性能飽和。然而在困難子集上，MinerU2.5-Pro以94.08分領先，超過第二名PaddleOCR-VL和第三名GLM-OCR（均為92.01分）2.07分，展現了數據引擎在困難場景魯棒性上的優勢，驗證了困難子集的判別力。

不同子指標的表現也反映了各組件的貢獻。MinerU2.5-Pro在公式識別（CDM 97.29）、表格識別（TEDS 93.42，TEDS-S 95.92）和閱讀順序（0.120）上達到最佳分數。值得注意的是，Gemini 3 Pro/Flash在OmniDocBench v1.6修正匹配策略后受益顯著（完整集92.85/92.58），縮小了與專門化模型的差距，但0.9B-1.2B參數的專門化模型仍保持整體領先。

訓練階段消融實驗揭示了各個組件的增量貢獻。第一階段（大規模監督微調）貢獻最大的單階段增益（+1.31），表明數據引擎在數據覆蓋度和標注質量上的優化是性能改善的主要驅動力。第二階段（困難樣本微調）增加+0.96，在表格識別上貢獻最為顯著（TEDS 90.37→92.87，+2.50）。第三階段（GRPO）貢獻+0.45，主要體現在公式CDM改善上（96.48→97.29，+0.81），由強化學習對任務級別指標的直接優化驅動。困難子集上的累積改善（91.65→94.08，+2.43）與基礎子集相當（93.23→96.12，+2.89），表明漸進式訓練策略在困難和標準場景上實現了平衡的能力改善。

元素特定解析的結果進一步驗證了各個組件的有效性。在文本識別上，MinerU2.5-Pro在完整集上達到0.019的編輯距離，相比MinerU2.5基線（0.028）減少30.5%。百億級別通用VLM（Qwen3.5-397B、Qwen3-VL-235B）展現了與專門化模型相當的文本識別性能，而端到端模型（DeepSeek-OCR 2、FireRed-OCR）在沒有類別先驗的情況下出現顯著退化。

在公式識別上，MinerU2.5-Pro在9個基準測試中的5個維度取得最佳分數，在其余4個維度排名第二。在OmniDocBench基礎集上，CDM達到99.20（滿分100），接近公式識別的性能上限。雖然Qwen3.5-397B在手寫公式上表現優異（95.38 vs 97.59），在中文公式上卻顯露出明顯弱點（中文78.24）。

在表格識別上，MinerU2.5-Pro在整體TEDS（91.10）和TEDS-S（94.48）上均排名第一，相比MinerU2.5分別提升3.16和2.31個百分點。優勢在困難子集上最為突出（TEDS 92.46 vs MinerU2.5的88.28，+4.18），表明數據引擎的困難樣本挖掘和專家標注對表格識別貢獻最大。GLM-OCR在OmniDocBench基礎集（96.14）和CCOCR（89.17）上略勝一籌，但在各基準測試上的穩定性不如MinerU2.5-Pro。PaddleOCR-VL-1.5在CCOCR（TEDS 76.34）和內部測試（TEDS 72.66）上出現顯著性能下降，暗示表格識別泛化能力有限。

六、技術細節深度剖析：提示設計與擴展能力

除了核心的數據引擎創新，MinerU2.5-Pro在技術實現上也體現了精細化設計理念。系統采用統一的提示接口，所有任務共享相同的格式：單個圖像token后跟純文本任務后綴，無需少樣本示例或結構化元數據。

布局檢測作為文檔解析流水線的入口點，負責定位所有內容區域并分配語義類別。模型接收下采樣的頁面圖像，產生結構化區域描述符序列。輸出是換行分隔的區域描述符序列，每個區域遵循規范格式，包含歸一化邊界框坐標、語義類別標簽和文本方向標記。區域按自然閱讀順序排列。

文本識別將裁剪的文本區域轉錄為純文本。每個區域是第一階段布局檢測產生的原始分辨率裁剪。輸出是對應裁剪文本區域內容的純文本字符串，無特殊token或標記，模型生成原樣文本，包括空格、標點和任何內聯符號。

公式識別將裁剪的公式區域轉換為LaTeX標記。模型支持內聯和顯示風格公式，以及多行方程環境。輸出是LaTeX數學字符串，顯示風格塊公式用分隔符包圍，方程編號通過tag命令保留。模型生成標準LaTeX數學命令和環境，確保輸出直接可編譯。

多行公式通過布局檢測和公式識別的協作處理。布局檢測首先識別包含整個多行組的方程塊區域，在其中單獨定位各行單行公式。每行然后由公式識別獨立裁剪和識別。最終多行輸出通過按閱讀順序連接各行LaTeX結果產生，忠實再現原始方程組，無需模型在單次傳遞中生成多行環境。

表格識別將裁剪的表格區域轉換為基于優化表格結構語言的結構化token序列。單元格內容轉錄為純文本，內聯公式在出現時用LaTeX表示。輸出是表示逐行表格結構的平面token序列，單元格用特定分隔符界定，行用換行分隔符分離。單元格內容可能包含純文本、LaTeX內聯數學或兩者混合。表示緊湊且無歧義，支持規則網格以及復雜內容的單元格。生成后，序列被程序化轉換為HTML用于渲染和下游集成。

圖像感知解析對裁剪的圖像區域分類并提取嵌入內容。與目標單一模態的其他識別任務不同，圖像分析首先確定圖像的語義類型，然后相應提取結構化內容。輸出包含四個結構化字段：類別、子類別、標題和內容。類別是主圖像類別，子類別提供更細粒度標簽，標題捕獲任何關聯標題文本，內容包含從圖像內提取的文字或結構化內容。

除了識別精度改進，MinerU2.5-Pro還擴展了MinerU2.5在若干實際維度的解析能力。這些特性針對真實世界部署場景，其中文檔是多頁的、豐富插圖的和結構復雜的。

圖像感知解析解決了MinerU2.5裁剪所有圖像區域而不進一步處理的問題，丟棄了圖表數據、嵌入文本和圖表內容等潛在有價值信息。MinerU2.5-Pro引入圖像感知解析，首先將每個圖像區域分類為細粒度子類型，然后應用差異化提取策略：圖表解析為結構化表格，文本圖像經過OCR，類表圖像識別為表格。這個框架易于擴展到額外圖像類型。

截斷段落合并處理布局檢測將每個空間區分的文本塊分割為獨立區域的傾向，這可能將語義連續的段落分成多個片段。常見原因包括多欄布局中的欄邊界、中斷段落的圖形或表格以及異常寬的行間距。MinerU2.5-Pro作為布局檢測任務的一部分執行截斷段落合并。由于布局檢測已經建立了閱讀順序，截斷必須發生在該順序中的連續區域之間，問題簡化為每個相鄰區域邊界的二元分類：合并或不合并。這個二元標簽直接集成到布局輸出序列中，允許在最終Markdown渲染期間重新組裝截斷段落，而不影響下游識別任務。

為了為此能力構建訓練數據，研究團隊在現有布局標準答案之上標注合并決定。對每對相鄰文本或列表項區域，首先應用基于規則的過濾，使用句子長度、前導編號模式和終端標點符號消除明顯的非合并情況。對剩余候選，在頁面圖像上用紅色和綠色高亮兩個區域，查詢Gemini 3 Flash，提供帶標注圖像和每個區域文本內容，要求基于布局上下文和文本連貫性判斷合并是否適當。為了降低API成本，長段落只提供首末句。

跨頁表格合并處理表格跨頁分割的情況，MinerU2.5-Pro自動檢測并合并片段。系統首先應用基于規則的啟發式識別候選對：如果頁面上的最后一個表格和下一頁上的第一個表格共享兼容的列數和結構模式，它們被標記為合并。對標記的對，模型接收上表最后幾行和下表前幾個數據行作為結構化文本提示，輸出每列二元決定列表，指示每列應該直接連接還是語義合并。直接連接適用于單元格內容在頁邊界處干凈分割的情況，而語義合并保留兩行作為不同數據。這種細粒度的逐列策略處理某些列需要連接而其他列不需要的常見情況。

表內圖像檢測處理真實世界文檔中的表格經常包含嵌入圖像的情況。MinerU2.5-Pro通過三步過程檢測這些：檢測階段，布局檢測識別空間落在表格邊界框內的圖像區域，每個檢測到的表內圖像在表格裁剪中用特殊占位符token替換，有效遮罩圖像區域；識別階段，遮罩的表格圖像饋送到表格識別，生成帶有標記遮罩圖像位置的占位符token的序列；恢復階段，在最終輸出中，占位符token解析回對原始圖像區域的引用，產生包含帶有鏈接到提取圖像內容塊的唯一標識符的圖像標簽的HTML表格單元格。這種方法允許表格結構和文本內容在不受嵌入圖像干擾的情況下被識別，同時保留圖像與其包含單元格在最終輸出中的空間對應關系。

七、局限性反思與未來展望

盡管MinerU2.5-Pro取得了顯著成果，研究團隊也坦誠地討論了當前方法的局限性和未來發展方向。

在評估方面的根本挑戰依然存在。雖然OmniDocBench v1.6通過修正匹配策略提高了評分公平性，但元素匹配范式本身存在內在局限性。模糊性是雙重的：在格式層面，相同內容可以用多種等價記號表示（例如表格的HTML vs Markdown，公式的不同LaTeX命令）；在結構層面，相同視覺布局可以用不同元素類型合理表示，例如對齊的中英文詞匯列表既可以表示為逐行文本對，也可以表示為兩列表格，即使人類標注者也可能對哪種表示"正確"存在分歧。開發考慮格式和結構模糊性的語義等價感知評估方法仍是開放問題。

評估覆蓋度和領域適應性的限制也很明顯。OmniDocBench v1.6旨在覆蓋主流應用場景；對精度要求更高的垂直領域（金融、法律、醫療），構建領域特定評估集是必要補充。此外，隨著模型能力接近人類水平性能，確保評估集標注本身的精度變成日益緊迫的挑戰。

技術發展方向上，當前工作專注于文檔解析中的內容準確性。然而對下游應用，文檔內結構關系同樣關鍵，如標題與正文間的層次關系、圖表與引用文本間的語義綁定、跨頁內容連續性等，對文檔檢索和下游語義理解至關重要。推進解析從"內容提取"向"結構化語義理解"演進代表了文檔解析研究的自然下一步。

數據引擎的進一步優化空間也很大。當前的跨模型一致性驗證依賴于現有模型的能力邊界，隨著模型能力整體提升，難度分層的標準也需要相應調整。判斷與精煉流水線雖然有效，但在極端復雜場景下仍可能失效，需要更多人工介入。此外，針對不同文檔類型和應用場景，數據引擎的參數設置可能需要個性化調優。

圖像分析能力目前還有很大提升空間。雖然MinerU2.5-Pro引入了圖像感知解析，但研究團隊承認還沒有對圖像分析數據應用數據引擎優化，這為未來改進留下了顯著空間。隨著圖表、流程圖、技術示意圖在現代文檔中的重要性日益凸顯，增強圖像內容的結構化提取能力將是重要發展方向。

值得注意的是，這項研究本身就體現了科研方向的重要轉變。在當前AI研究的"軍備競賽"背景下，大多數團隊都在追求更大、更復雜的模型架構。MinerU2.5-Pro的成功證明，在模型架構日趨成熟的背景下，系統性的數據工程可能提供一條更可持續、更高效的性能提升路徑。

這種方法論的轉變對整個AI研究領域具有深遠意義。它提醒研究者，在追求架構創新的同時，不應忽視數據質量這一基礎要素。就像建筑師不僅要設計精美的圖紙，也要確保使用優質的建材一樣，AI研究需要在模型設計和數據工程之間找到平衡。

說到底，MinerU2.5-Pro的成功故事告訴我們，有時候最大的突破并不來自最復雜的技術，而來自對問題本質的深刻理解和對細節的極致追求。這項研究不僅推動了文檔解析技術的發展，更為AI研究提供了一個重要啟示：在技術發展的每個階段，都要審視什么是真正的瓶頸，然后用最合適的方法去突破它。

Q&A

Q1：MinerU2.5-Pro的數據引擎是如何工作的？

A：數據引擎包含四個核心組件：多樣性與難度感知采樣負責從海量文檔中篩選出既多樣化又有挑戰性的訓練樣本；跨模型一致性驗證通過多個模型的輸出一致性來判斷樣本難度；判斷與精煉流水線通過渲染驗證機制提升困難樣本的標注質量；目標專家標注則對最困難的樣本進行人工精標。整個系統將訓練數據從不到1000萬頁擴展到6550萬頁。

Q2：為什么MinerU2.5-Pro不增加參數就能提升性能？

A：研究團隊發現當前文檔解析的性能瓶頸主要在于訓練數據的質量問題，而不是模型架構。通過分析多個頂級模型，他們發現這些模型在相同困難樣本上表現出相似的失敗模式，說明問題出在共同的數據短板上。因此通過系統性的數據工程優化，在保持1.2B參數架構不變的情況下，就能實現顯著的性能提升。

Q3：OmniDocBench v1.6相比v1.5有哪些改進？

A：v1.6主要有兩大改進：首先是多粒度自適應匹配機制，解決了v1.5中因輸出分割粒度不同而導致的評分偏差問題，讓評估對不同系統更加公平；其次是增加了困難樣本子集，建立了基礎/困難/完整三層評估體系，更好地區分頂級模型間的性能差異。這些改進讓評估結果更加準確和有判別力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.