網易首頁 > 網易號 > 正文申請入駐

華中科技大學發布全球首個多語言拍照文檔解析基準

2026-04-13 21:25:54　來源: 科技行者

北京舉報

分享至

在數字化浪潮席卷全球的今天，人工智能已經能夠輕松識別電子文檔中的文字和結構，但面對現實生活中那些被拍照的皺巴巴的收據、歪斜的報紙、或者用阿拉伯語寫成的手寫筆記時，就顯得力不從心了。華中科技大學和金山辦公聯合發布了一項開創性研究，構建了全球第一個專門針對多語言拍照文檔解析的評測基準MDPBench。這項研究于2026年3月發表在計算機視覺頂級會議上，論文編號為arXiv:2603.28130v1，為評估AI系統在真實世界場景下的文檔理解能力提供了全新的標準。

研究團隊發現了一個令人深思的現象：目前最先進的AI文檔解析系統在面對非英語文檔和真實拍照環境時，性能會出現顯著下降。具體來說，當處理拍照文檔時，系統準確率平均下降17.8%，而處理非拉丁文字（如中文、阿拉伯文、泰文等）時，準確率會下降14.0%。這就像一個在標準化考試中表現優異的學生，突然面臨手寫卷子和不同語言時就開始犯難了。

為了深入了解這個問題，研究團隊精心構建了一個包含3400張文檔圖片的大型數據集，覆蓋了17種不同語言，從德語、西班牙語這樣的拉丁文字，到阿拉伯語、印地語、日語、韓語、中文等各種文字系統。更重要的是，他們不僅收集了電子版文檔，還模擬真實使用場景，將這些文檔打印出來或顯示在屏幕上，然后在各種環境下拍照：室內外不同光線條件、文檔彎曲折疊、不同拍攝角度，甚至包括陰影、反光、模糊等真實世界中常見的問題。

一、真實世界的文檔解析挑戰

如果說電子文檔解析像是在圖書館里閱讀整齊排列的書籍，那么拍照文檔解析就像是在嘈雜的市集中辨認各種手寫招牌。研究團隊發現，現有的AI系統在這種"市集環境"下表現遠不如"圖書館環境"。

當我們用手機拍攝一份文檔時，會遇到各種各樣的問題：光線不均勻導致的陰影、手機攝像頭的畸變、紙張的彎曲折疊、背景的干擾，以及拍攝角度的偏斜。這些因素對AI系統來說都是巨大的挑戰。研究團隊通過大量實驗發現，即使是目前性能最好的商業化AI系統，在處理這些真實拍照場景時也會出現明顯的性能下降。

更有趣的是，研究團隊發現AI系統在處理不同語言時表現差異巨大。對于英語、德語、法語這些使用拉丁字母的語言，AI系統通常表現較好，但面對阿拉伯語的從右到左書寫方式、印地語的復雜變音符號、或者泰語的無空格連續文本時，就經常出現識別錯誤。這就像一個只熟悉西方烹飪的廚師，突然要制作中式點心或印度咖喱，往往會手忙腳亂。

二、構建多語言文檔解析的"奧運會"

為了客觀評估各種AI系統的真實能力，研究團隊構建了一個全面的評測基準，就像是為文檔解析AI舉辦了一場"奧運會"。這場比賽不僅要測試AI在標準環境下的表現，更要考驗它們在各種復雜真實場景下的應對能力。

數據收集過程極其嚴謹。研究團隊從全球各地的公開網站收集了850份原始電子文檔，涵蓋學術論文、商業報告、教育材料、手寫筆記、歷史檔案、現代報紙等各種類型。這些文檔就像是從世界各地精心挑選的"食材"，要確保每一種都具有代表性和挑戰性。

接下來的拍攝過程更是精心設計。研究團隊將這些文檔打印出來或在屏幕上顯示，然后在各種真實環境下拍攝。室內拍攝時，他們故意制造各種干擾：桌面紋理、地板圖案、背景文字等。室外拍攝則面臨自然光線變化、陰影投射、復雜背景等挑戰。同時，他們還對文檔進行各種物理變形：向內彎曲、向外彎曲、不規則皺褶，并從不同角度拍攝：左傾、右傾、倒置、斜角等。每份文檔最終產生三張照片：兩張室內、一張室外，總計獲得了3400張具有挑戰性的文檔圖片。

標注工作同樣嚴格規范。研究團隊采用了三階段標注流程，就像是三重質量檢查。首先使用多個專業AI模型進行初步標注，然后通過人工校正，最后由獨立審核人員驗證。這個過程確保了標注質量的可靠性和一致性。

三、AI系統的"成績單"揭示驚人差距

測試結果就像是一面鏡子，清晰地反映出當前AI技術的真實水平。研究團隊測試了包括谷歌Gemini、GPT系列、開源模型等在內的20多種主流AI系統，發現了幾個令人深思的現象。

商業化閉源模型與開源模型之間存在明顯差距。谷歌的Gemini-3-Pro表現最佳，整體準確率達到86.4%，在17種語言中的14種都取得了最高分。相比之下，表現最好的開源模型dots.mocr準確率為80.5%，差距達到近6個百分點。這種差距在拍照文檔處理中更為明顯：Gemini-3-Pro在拍照場景下仍能保持85.1%的準確率，而dots.mocr則降至77.2%，差距擴大到近8個百分點。

更令人關注的是語言偏見問題。所有AI系統在處理拉丁文字語言時表現較好，平均準確率能達到75%以上，但處理非拉丁文字時性能明顯下降。以MinerU-2.5和MonkeyOCR為例，雖然它們主要在英文和中文數據上訓練，但在德語等拉丁文字語言上仍能保持不錯的泛化能力，準確率超過70%。然而面對阿拉伯語和印地語時，這些系統的準確率竟然低于10%，幾乎完全失效。

拍照環境對所有系統都構成了嚴峻挑戰。平均而言，從電子文檔到拍照文檔，所有AI系統的準確率都會下降17.8%。即使是表現最好的Gemini-3-Pro，在拍照場景下的準確率也從90.4%降至85.1%，下降了5.3個百分點。這說明真實世界的復雜性遠超我們的想象。

四、AI犯錯的典型"癥狀"

通過深入分析AI系統的錯誤模式，研究團隊發現了幾種典型的"癥狀"，就像醫生診斷病癥一樣清晰明確。

語言特定錯誤最為常見。在處理印地語時，AI系統經常忽略重要的變音符號，就像看書時跳過了標點符號，導致意思完全改變。比如"???????"（Arvind）被錯誤識別為"?????"（Aravid），少了一個關鍵的變音符號。在處理俄語時，AI系統常常將外觀相似的西里爾字母誤認為拉丁字母，比如將西里爾字母"а"、"е"、"о"錯誤識別為對應的拉丁字母。

泰語處理則暴露了另一個問題。泰語是連續書寫的語言，單詞之間沒有空格，只在語義邊界處才有空格。但AI系統經常在連續文本中隨意添加空格，就像把英語單詞"biggest"錯誤分割成"bigge st"一樣，嚴重破壞了詞匯的完整性。

重復輸出和語言漂移是另一類常見錯誤。某些AI系統在處理復雜文檔時會陷入循環，不斷重復相同的文本片段，就像壞掉的錄音機一樣。更奇怪的是，一些系統在處理越南語文檔時會突然"切換"到中文模式，仿佛在不同語言間迷失了方向。

閱讀順序錯誤在阿拉伯語文檔中尤為突出。阿拉伯語從右到左書寫，但許多AI系統仍然按照從左到右的順序處理文本，導致整個文檔的邏輯順序完全顛倒。這就像用中式的閱讀習慣去讀阿拉伯書籍，必然會產生理解偏差。

五、單項能力解析：各有所長的專科醫生

研究團隊還對AI系統的各項具體能力進行了深入分析，就像對醫生的專科水平進行評估一樣。

在純文字識別方面，PaddleOCR-VL-1.5在17種語言中的10種表現最佳，顯示出其在文字識別領域的專業優勢。這主要得益于它使用了大量文本塊級別的訓練數據，就像一個專門訓練識字的學生，在這個基礎技能上表現突出。相比之下，dots.mocr和Gemini-3-Pro雖然在整體文檔解析上表現優異，但在處理裁剪后的局部文本塊時反而不如專門的文字識別系統，這說明端到端訓練和專項訓練各有優勢。

公式識別領域則是Gemini-3-Pro的主場。在數字版公式識別中，它達到了93.4%的準確率，在拍照版公式中也能保持90.5%的高水準。所有系統在處理拍照公式時都會遇到困難，主要原因是復雜背景、光線變化、圖像失真和幾何變形會嚴重影響數學符號的精確識別。

表格識別仍然是整個領域的難點。即使是表現最好的Gemini-3-Pro，在數字版表格上只能達到75.9%的準確率，在拍照表格上更是降至69.2%。表格識別的復雜性在于需要同時理解結構布局和內容含義，就像要在一張復雜的建筑圖紙上既要看懂結構框架，又要讀懂每個房間的標注信息。

版面檢測方面，dots.mocr表現最為均衡，在17種語言中的13種都達到了最佳水平，顯示出良好的多語言泛化能力。有趣的是，即使某些系統在整體文檔解析中表現不佳，但它們的版面檢測能力仍然相對穩定。比如MinerU-2.5-VLM在阿拉伯語、印地語和俄語的整體解析中準確率低于10%，但版面檢測的PageIoU得分仍然超過85%，說明版面檢測相對不受語言差異影響。

六、技術路線的分化：端到端vs傳統流水線

研究中一個有趣的發現是不同技術路線在各種場景下的表現差異。就像比較手工制作和工廠流水線生產，各有優劣勢。

端到端的AI系統像是多才多藝的全能選手，能夠直接從原始文檔圖片輸出最終的結構化結果。這類系統的優勢是整體協調性好，避免了傳統流水線中錯誤累積的問題。Gemini-3-Pro、dots.mocr等都屬于這一類別，它們在復雜文檔的整體理解上表現出色。

傳統流水線系統則像是專業化的工廠生產線，將文檔解析分解為版面檢測、文字識別、表格識別等多個獨立步驟。PP-StructureV3代表了這類方法，雖然在單項任務上可能有不錯的表現，但整體協調性較差，容易出現"木桶效應"—— 一個環節的失誤會影響整個流程。

混合方法試圖結合兩者優勢，比如MonkeyOCR采用的三階段方法：先檢測文檔結構，再識別具體內容，最后預測元素間關系。這種方法在某些場景下能夠平衡效率和準確性，但仍然面臨多階段協調的挑戰。

七、評測方法的創新：從元素級到頁面級

研究團隊在評測方法上也進行了重要創新。傳統的文檔解析評測通常采用元素級平均策略，就像按照不同科目分別計算學生成績，然后簡單平均。但在多語言場景下，這種方法會產生偏差。

問題在于不同語言的文檔結構差異很大。英語學術論文通常包含大量數學公式，而某些語言的文檔可能很少使用公式。如果按元素類型平均，那么某種語言的整體得分就可能被少數幾個公式或表格的識別結果過度影響，就像一個學生的總成績被某個不常考的科目嚴重拖累。

因此，研究團隊提出了頁面級聚合評測策略。這種方法先計算頁面內所有元素的綜合得分，然后對所有頁面求平均，就像按照綜合能力而非單科成績來評價學生。這樣能夠更公平地反映AI系統在不同語言文檔上的真實表現水平。

為了防止"應試教育"現象，研究團隊還將數據集分為公開和私有兩部分。公開部分供研究者訓練和調試使用，私有部分僅用于最終評測，確保評測結果的客觀性和可靠性。

八、標注質量的保障：三重質控體系

高質量的標注是評測基準可信度的基礎，研究團隊為此建立了嚴格的三重質控體系，就像醫院的三級診療制度一樣層層把關。

第一階段是專家模型初標。研究團隊使用dots.ocr和PaddleOCR-VL兩個專業模型對所有數字版文檔進行版面檢測，然后人工比較兩個結果，選擇漏檢和誤檢較少的作為初始標注。基于版面信息，他們裁剪出文本塊、表格塊和公式塊，再使用PaddleOCR-VL、dots.ocr和Qwen3VL三個模型進行識別。

關鍵的創新在于共識投票機制。由于正確的識別結果通常是唯一且穩定的，而錯誤結果往往多樣且隨機，研究團隊計算三個模型預測結果之間的相似度，選擇與其他兩個模型最相似的結果作為初始標注。對于文本和公式使用歸一化編輯距離，對于表格使用樹編輯距離相似度。如果最高平均相似度低于0.7，則認為三個模型的預測都不可靠，改用當時最先進的Gemini-3-pro進行識別。

第二階段是人工校正。在進行正式校正前，研究團隊首先統一校正標準，培訓標注人員，并在小樣本上進行試標注以驗證流程的準確性和一致性。正式校正采用分層驗證方式：先檢查版面坐標和元素類型是否正確，再驗證閱讀順序是否符合人類自然閱讀邏輯，最后逐一檢查和完善每個檢測到的版面元素。

第三階段是獨立驗證。每份文檔經過人工校正后，都要提交給獨立的審核人員進行驗證。如果標注符合質量標準，標記為"通過"并進入最終交付階段。如果發現任何錯誤或不一致，標記為"不通過"，附上詳細反饋意見，返回原標注人員進行針對性修訂。這個過程會反復進行，直到文檔完全滿足驗收標準。

九、發現的深層問題與啟示

這項研究揭示了AI文檔解析領域的幾個深層問題，為未來發展指明了方向。

訓練數據的語言偏見是最突出的問題。當前多數AI系統主要在英語和少數高資源語言上訓練，導致在處理低資源語言時表現不佳。這不僅是技術問題，更是公平性問題。在全球化時代，AI系統應該能夠平等地理解和處理世界各地的語言文字，而不應該存在"語言歧視"。

真實場景適應性不足也是普遍存在的問題。大多數AI系統在標準化的電子文檔上訓練，缺乏對真實世界復雜環境的適應能力。這就像在實驗室里培養的植物，移栽到自然環境后往往難以存活。

文字系統理解的局限性同樣值得關注。不同文字系統有著獨特的書寫規則、閱讀方向和視覺特征。AI系統需要更深入地理解這些差異，而不是簡單地將所有文字都按照拉丁字母的方式處理。

多模態信息融合能力有待提升。文檔理解不僅涉及文字識別，還包括版面分析、表格理解、圖像描述等多種任務。如何更好地協調這些不同模態的信息，仍然是一個開放性挑戰。

十、對未來發展的展望

基于這些發現，研究團隊對文檔解析AI的未來發展提出了幾個重要方向。

數據多樣性是基礎。未來的AI系統需要在更加多樣化的訓練數據上學習，不僅要涵蓋更多語言，還要包含更多真實場景的拍照文檔。這需要全球研究社區的共同努力，收集和標注來自不同文化背景的文檔數據。

算法魯棒性需要重點提升。AI系統應該具備更強的抗干擾能力，能夠在光線變化、圖像失真、背景復雜等情況下保持穩定性能。這可能需要專門的數據增強技術和魯棒性訓練方法。

多語言理解能力亟需加強。未來的AI系統應該具備更強的跨語言泛化能力，能夠理解不同文字系統的特點和規律。這可能需要借鑒多語言預訓練模型的經驗，在文檔解析領域進行類似的探索。

評測標準需要持續完善。隨著技術的發展，評測基準也需要不斷更新和擴展，納入新的語言、新的文檔類型和新的挑戰場景。這項研究提供的MDPBench只是一個開始，未來還需要更多類似的標準化評測工具。

說到底，這項研究讓我們看到了AI文檔解析技術的現狀和挑戰。雖然現有技術已經在某些方面達到了很高的水平，但在多語言支持和真實場景適應性方面仍有很大提升空間。就像學習一門外語需要在真實環境中實踐一樣，AI系統也需要在更多樣化的真實場景中得到訓練和驗證。

這項研究的意義不僅在于揭示了現有技術的不足，更在于為整個領域指明了發展方向。隨著全球數字化進程的加速，能夠理解和處理世界各種語言文檔的AI系統將變得越來越重要。無論是幫助學者研究古代文獻，還是協助企業處理國際業務文檔，這些技術都將發揮重要作用。

對于普通用戶來說，這項研究的成果最終將體現在更好的手機掃描應用、更智能的文檔管理工具、更準確的翻譯服務等方面。當我們用手機拍攝一張外語菜單或者古老的手寫筆記時，AI系統能夠準確理解并轉換成我們熟悉的格式，這樣的未來或許并不遙遠。

研究團隊已經將MDPBench的公開部分提供給學術界使用，有興趣的研究者可以通過arXiv:2603.28130v1獲取詳細信息。這個開放的態度本身就體現了科學研究的合作精神，相信會推動整個領域的快速發展。

Q&A

Q1：MDPBench是什么？

A：MDPBench是由華中科技大學和金山辦公聯合開發的全球首個多語言拍照文檔解析評測基準。它包含3400張覆蓋17種語言的文檔圖片，專門用于測試AI系統在真實拍照環境下處理不同語言文檔的能力，就像是為文檔解析AI舉辦的一場"奧運會"。

Q2：現有AI系統在處理拍照文檔時表現如何？

A：研究發現所有AI系統在處理拍照文檔時性能都會顯著下降，平均準確率下降17.8%。即使是表現最好的谷歌Gemini-3-Pro，準確率也從90.4%降至85.1%。主要困難來自光線不均、圖像失真、背景干擾等真實世界的復雜因素。

Q3：為什么AI系統在處理不同語言時差距這么大？

A：主要原因是訓練數據的語言偏見。大多數AI系統主要在英語等高資源語言上訓練，對阿拉伯語、印地語、泰語等語言的訓練不足。不同文字系統的書寫方向、符號特征和語言規則差異很大，需要專門的理解和處理方法。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.