![]()
這是一個(gè)來(lái)自百度飛槳團(tuán)隊(duì)的重要研究成果。由Cheng Cui、Ting Sun、Suyin Liang等多位研究者組成的團(tuán)隊(duì),在2025年11月發(fā)表了這項(xiàng)突破性研究,論文編號(hào)為arXiv:2510.14528v4。這項(xiàng)工作發(fā)表在計(jì)算機(jī)視覺(jué)領(lǐng)域,代表了文檔解析技術(shù)的最新進(jìn)展。有興趣深入了解的讀者可以通過(guò)這個(gè)論文編號(hào)在arXiv學(xué)術(shù)論文庫(kù)中查詢完整論文。
一、為什么我們需要一個(gè)更聰明的文檔閱讀機(jī)器
想象一下,你正在一個(gè)巨大的圖書(shū)館里工作,每天要處理成千上萬(wàn)份各式各樣的文件。有些是學(xué)術(shù)論文,里面充滿了復(fù)雜的公式和表格;有些是報(bào)紙,文字和圖片混在一起;有些甚至是手寫(xiě)的筆記。如果要一份份手工整理這些文件,提取里面的信息,那簡(jiǎn)直是一場(chǎng)噩夢(mèng)。
這正是現(xiàn)實(shí)中很多企業(yè)和機(jī)構(gòu)每天都在面對(duì)的挑戰(zhàn)。隨著數(shù)字化進(jìn)程的加快,文檔的數(shù)量和復(fù)雜性都在爆炸式增長(zhǎng)。這些文檔可能來(lái)自不同的國(guó)家,使用不同的語(yǔ)言,有著各種各樣的排版方式。對(duì)計(jì)算機(jī)來(lái)說(shuō),理解這些文檔的內(nèi)容和結(jié)構(gòu),就像要求一個(gè)人類(lèi)在完全陌生的環(huán)境中快速理解一份外文文件一樣困難。
百度飛槳團(tuán)隊(duì)認(rèn)識(shí)到這個(gè)問(wèn)題的嚴(yán)重性。他們意識(shí)到,如果能開(kāi)發(fā)出一個(gè)既能準(zhǔn)確理解文檔內(nèi)容,又能快速處理大量文件的智能系統(tǒng),那將是一個(gè)巨大的突破。這個(gè)系統(tǒng)不僅要能識(shí)別文字,還要能理解表格的結(jié)構(gòu)、識(shí)別數(shù)學(xué)公式、分析圖表數(shù)據(jù),甚至要能處理手寫(xiě)文字。更關(guān)鍵的是,這個(gè)系統(tǒng)要足夠輕量,能在普通的計(jì)算機(jī)上運(yùn)行,而不是只能在超級(jí)計(jì)算機(jī)上才能使用。
二、兩條路線的碰撞:為什么選擇混合方案
在文檔處理的技術(shù)世界里,研究者們一直在兩條不同的路線之間搖擺。
第一條路線就像是一個(gè)專(zhuān)業(yè)的流水線工廠。工廠里有多個(gè)專(zhuān)門(mén)的工人,每個(gè)人負(fù)責(zé)一項(xiàng)特定的工作。有人專(zhuān)門(mén)負(fù)責(zé)找出文檔的布局結(jié)構(gòu),有人專(zhuān)門(mén)識(shí)別文字,有人專(zhuān)門(mén)分析表格。這種方法的好處是每個(gè)工人都能把自己的工作做得非常精細(xì),因?yàn)樗麄冎恍枰獙?zhuān)注于一件事。但問(wèn)題在于,如果前一個(gè)工人出了錯(cuò),后面的工人就會(huì)基于錯(cuò)誤的信息繼續(xù)工作,錯(cuò)誤會(huì)像滾雪球一樣越來(lái)越大。而且,當(dāng)你想要添加一個(gè)新的功能或處理新的文檔類(lèi)型時(shí),整條流水線都需要重新調(diào)整。
第二條路線就像是招聘一個(gè)全能的員工,給他一個(gè)任務(wù),他就能從頭到尾完成所有工作。這種方法看起來(lái)很高效,因?yàn)樯倭撕芏嘀虚g環(huán)節(jié)。但這個(gè)全能員工通常需要很大的腦子(也就是需要很強(qiáng)的計(jì)算能力),而且當(dāng)文檔特別復(fù)雜或特別長(zhǎng)時(shí),他容易出現(xiàn)幻覺(jué),就像一個(gè)人在極度疲勞時(shí)開(kāi)始說(shuō)胡話一樣。
百度飛槳團(tuán)隊(duì)采取了一個(gè)聰明的折中方案。他們保留了第一條路線中最有價(jià)值的部分——一個(gè)專(zhuān)門(mén)負(fù)責(zé)理解文檔布局和閱讀順序的模塊,但這個(gè)模塊被設(shè)計(jì)得非常輕量和高效。然后,他們開(kāi)發(fā)了一個(gè)新的、更聰明的全能員工來(lái)處理具體的內(nèi)容識(shí)別工作。這個(gè)新員工的大腦雖然不是最大的,但被精心設(shè)計(jì)得特別擅長(zhǎng)處理文檔中的各種元素。
三、聰明的大腦是如何構(gòu)造的
讓我們來(lái)看看這個(gè)新系統(tǒng)的核心——PaddleOCR-VL-0.9B模型。這個(gè)名字中的"0.9B"指的是它有9億個(gè)參數(shù),相比之下,很多其他的文檔識(shí)別模型有幾十億甚至上百億個(gè)參數(shù)。參數(shù)就像是大腦中的神經(jīng)元連接,參數(shù)越多,模型通常就越大,需要的計(jì)算資源也就越多。所以0.9B聽(tīng)起來(lái)很小,但百度團(tuán)隊(duì)讓它做出了很多大得多的模型才能做到的事情。
這個(gè)模型的構(gòu)造就像是一個(gè)精心設(shè)計(jì)的兩層樓房。底層是視覺(jué)部分,負(fù)責(zé)"看"文檔。百度團(tuán)隊(duì)使用了一種叫做NaViT的特殊視覺(jué)編碼器,它有一個(gè)獨(dú)特的能力:可以處理任意分辨率的圖像,而不需要先把圖像壓縮或扭曲成固定的尺寸。這就像是一個(gè)攝像頭,無(wú)論你拍攝的是一張小紙條還是一整面墻,它都能清晰地捕捉所有細(xì)節(jié)。這對(duì)于文檔識(shí)別特別重要,因?yàn)槲臋n中的文字可能很小,如果壓縮圖像,小文字就會(huì)變得模糊不清。
樓房的上層是語(yǔ)言部分,負(fù)責(zé)"理解"和"表達(dá)"。這里使用的是一個(gè)叫做ERNIE-4.5-0.3B的語(yǔ)言模型。這個(gè)模型雖然只有3億個(gè)參數(shù),但它被特別優(yōu)化過(guò),能夠快速地生成文本。在自動(dòng)回歸語(yǔ)言模型中,每生成一個(gè)詞都需要時(shí)間,所以用一個(gè)更小、更快的模型能顯著加快處理速度。
連接這兩層的是一個(gè)簡(jiǎn)單但有效的中間層,就像是一個(gè)翻譯官,把視覺(jué)信息轉(zhuǎn)換成語(yǔ)言模型能理解的形式。這個(gè)中間層只有兩層神經(jīng)網(wǎng)絡(luò),非常輕量。
四、第一步:教會(huì)機(jī)器理解文檔的布局
在處理任何文檔之前,系統(tǒng)首先需要理解文檔的結(jié)構(gòu)。這就是PP-DocLayoutV2模塊的工作。
想象你拿到一份報(bào)紙,首先要做的是識(shí)別哪些是標(biāo)題,哪些是正文,哪些是圖片,哪些是廣告。然后你需要確定應(yīng)該按什么順序讀這些內(nèi)容。這個(gè)模塊就是在做這樣的工作。
PP-DocLayoutV2由兩個(gè)部分組成。第一部分是一個(gè)物體檢測(cè)模型,它的工作就像是一個(gè)細(xì)心的編輯,用紅筆在文檔上圈出不同的元素。它使用了一個(gè)叫做RT-DETR的最新檢測(cè)技術(shù),能夠快速準(zhǔn)確地定位文檔中的各個(gè)元素,比如文本塊、表格、公式和圖表。
第二部分更有趣。它是一個(gè)指針網(wǎng)絡(luò),用來(lái)確定閱讀順序。這就像是在問(wèn):"這些被圈出來(lái)的元素,我應(yīng)該按什么順序讀?"這個(gè)網(wǎng)絡(luò)通過(guò)分析元素之間的幾何關(guān)系來(lái)做出判斷。它考慮的是元素的位置——哪個(gè)在左邊,哪個(gè)在上面,哪個(gè)更靠近——然后推斷出合理的閱讀順序。
這個(gè)模塊的巧妙之處在于,它不依賴長(zhǎng)序列的自動(dòng)回歸生成過(guò)程。也就是說(shuō),它不需要像生成文本那樣一個(gè)一個(gè)地預(yù)測(cè)每個(gè)元素的順序。相反,它能夠一次性地分析所有元素之間的關(guān)系,然后確定最合理的順序。這使得它既快速又準(zhǔn)確,而且不容易出現(xiàn)那種"越往后預(yù)測(cè)越容易出錯(cuò)"的問(wèn)題。
五、第二步:識(shí)別文檔中的具體內(nèi)容
一旦系統(tǒng)理解了文檔的布局和閱讀順序,就可以根據(jù)這些信息把文檔分割成不同的區(qū)域,然后讓PaddleOCR-VL-0.9B模型來(lái)處理每個(gè)區(qū)域。
這個(gè)模型需要處理四種不同的任務(wù),就像一個(gè)多面手工人需要掌握不同的技能。
第一項(xiàng)技能是光學(xué)字符識(shí)別,也就是識(shí)別文字。這不僅僅是識(shí)別單個(gè)字符,而是理解文字是如何組織的——哪些字組成一個(gè)詞,哪些詞組成一行,哪些行組成一個(gè)段落,甚至整個(gè)頁(yè)面的文本結(jié)構(gòu)是什么樣的。這對(duì)于處理不同語(yǔ)言特別重要,因?yàn)椴煌Z(yǔ)言的文字組織方式完全不同。
第二項(xiàng)技能是表格識(shí)別。表格就像是一個(gè)精心組織的矩陣,有行有列,每個(gè)單元格里可能有文字、數(shù)字或其他內(nèi)容。識(shí)別表格需要理解這種二維結(jié)構(gòu),知道哪些單元格是相鄰的,哪些單元格被合并了。模型需要輸出一種特殊的格式來(lái)表示這種結(jié)構(gòu),就像是用代碼來(lái)描述一個(gè)表格的樣子。
第三項(xiàng)技能是公式識(shí)別。數(shù)學(xué)公式是特別復(fù)雜的,因?yàn)樗鼈兩婕疤厥獾姆?hào)、上標(biāo)、下標(biāo)、分?jǐn)?shù)線等等。模型需要把這些視覺(jué)元素轉(zhuǎn)換成LaTeX格式,這是數(shù)學(xué)領(lǐng)域的標(biāo)準(zhǔn)語(yǔ)言。這就像是要把一個(gè)手寫(xiě)的數(shù)學(xué)公式翻譯成計(jì)算機(jī)能理解的數(shù)學(xué)語(yǔ)言。
第四項(xiàng)技能是圖表識(shí)別。圖表可能是柱狀圖、折線圖、餅圖等等。模型需要理解圖表想要表達(dá)的數(shù)據(jù),然后把這些數(shù)據(jù)轉(zhuǎn)換成表格的形式。這就像是要把一個(gè)圖形化的故事翻譯成數(shù)字表格。
六、數(shù)據(jù):高質(zhì)量訓(xùn)練數(shù)據(jù)的秘密配方
要讓一個(gè)AI模型變得聰明,最重要的是給它高質(zhì)量的訓(xùn)練數(shù)據(jù)。百度團(tuán)隊(duì)在這方面下了很大的功夫。
他們的數(shù)據(jù)收集策略就像是在做一道復(fù)雜的菜肴,需要從多個(gè)不同的來(lái)源采集食材。首先,他們從公開(kāi)的數(shù)據(jù)集中收集了大量的基礎(chǔ)數(shù)據(jù),就像是去超市買(mǎi)基本的食材。這些包括著名的手寫(xiě)數(shù)據(jù)集CASIA-HWDB,還有各種數(shù)學(xué)公式數(shù)據(jù)集和圖表數(shù)據(jù)集。
但僅有這些還不夠,因?yàn)楣_(kāi)數(shù)據(jù)集往往不夠平衡。某些類(lèi)型的數(shù)據(jù)很多,某些類(lèi)型的數(shù)據(jù)很少。所以團(tuán)隊(duì)采用了數(shù)據(jù)合成技術(shù),就像是用烹飪技巧來(lái)補(bǔ)充不足的食材。他們使用各種工具——字體庫(kù)、CSS庫(kù)、LaTeX渲染器、網(wǎng)頁(yè)瀏覽器等——來(lái)人工生成缺少的數(shù)據(jù)類(lèi)型。
此外,他們還從互聯(lián)網(wǎng)上收集了大量真實(shí)的文檔,包括學(xué)術(shù)論文、報(bào)紙、科學(xué)期刊、掃描的手寫(xiě)文檔、各種考試試卷和演示文稿。這些真實(shí)數(shù)據(jù)為模型提供了多樣化的風(fēng)格和結(jié)構(gòu)。
最后,百度團(tuán)隊(duì)還使用了自己多年積累的內(nèi)部數(shù)據(jù)集。這些數(shù)據(jù)都經(jīng)過(guò)了精心的質(zhì)量控制。
數(shù)據(jù)收集只是第一步。接下來(lái)是標(biāo)注,也就是給數(shù)據(jù)添加正確答案的標(biāo)簽。對(duì)于3000多萬(wàn)個(gè)樣本來(lái)說(shuō),手工標(biāo)注是不可能的。所以團(tuán)隊(duì)使用了一個(gè)聰明的自動(dòng)標(biāo)注流程。首先,他們用一個(gè)已有的專(zhuān)業(yè)模型PP-StructureV3來(lái)初步處理數(shù)據(jù),生成初步的標(biāo)簽。然后,他們把這些初步標(biāo)簽和原始圖像一起送給更強(qiáng)大的大型語(yǔ)言模型,比如ERNIE-4.5-VL和Qwen2.5VL,讓這些模型來(lái)改進(jìn)和驗(yàn)證標(biāo)簽。最后,他們還進(jìn)行了一個(gè)特殊的過(guò)濾步驟,去除那些模型可能產(chǎn)生的錯(cuò)誤或幻覺(jué)。
但這還不是全部。團(tuán)隊(duì)還進(jìn)行了一個(gè)叫做"困難樣本挖掘"的過(guò)程。他們?cè)谝粋€(gè)精心標(biāo)注的評(píng)估數(shù)據(jù)集上測(cè)試模型,找出模型表現(xiàn)不好的地方。然后,他們針對(duì)這些困難的情況,使用各種工具來(lái)合成新的訓(xùn)練樣本,幫助模型在這些弱點(diǎn)上進(jìn)行改進(jìn)。這就像是一個(gè)學(xué)生在考試中發(fā)現(xiàn)自己在某個(gè)知識(shí)點(diǎn)上很弱,然后專(zhuān)門(mén)做這個(gè)知識(shí)點(diǎn)的練習(xí)題一樣。
七、訓(xùn)練的兩個(gè)階段:從基礎(chǔ)到精通
訓(xùn)練PaddleOCR-VL-0.9B分為兩個(gè)階段,就像學(xué)習(xí)一門(mén)新語(yǔ)言——先學(xué)基礎(chǔ)語(yǔ)法,再學(xué)實(shí)際應(yīng)用。
第一個(gè)階段叫做對(duì)齊預(yù)訓(xùn)練。在這個(gè)階段,模型要學(xué)習(xí)的是如何把視覺(jué)信息和語(yǔ)言信息聯(lián)系起來(lái)。團(tuán)隊(duì)使用了2900萬(wàn)個(gè)高質(zhì)量的圖像-文本對(duì)。這些對(duì)可能來(lái)自各種來(lái)源,但都經(jīng)過(guò)了精心的選擇和清理。在這個(gè)階段,模型就像是一個(gè)初學(xué)者,在學(xué)習(xí)如何用眼睛看東西,然后用語(yǔ)言來(lái)描述。這個(gè)階段進(jìn)行了一個(gè)完整的循環(huán),使用了相對(duì)較大的學(xué)習(xí)率。
第二個(gè)階段叫做指令微調(diào)。在這個(gè)階段,模型已經(jīng)學(xué)會(huì)了基礎(chǔ)的視覺(jué)-語(yǔ)言對(duì)齊,現(xiàn)在要學(xué)習(xí)如何在特定的任務(wù)上表現(xiàn)得很好。團(tuán)隊(duì)使用了270萬(wàn)個(gè)精心設(shè)計(jì)的樣本,這些樣本都是針對(duì)四個(gè)具體任務(wù)的——OCR、表格識(shí)別、公式識(shí)別和圖表識(shí)別。在這個(gè)階段,模型要學(xué)習(xí)的是如何根據(jù)具體的指令來(lái)完成任務(wù)。這就像是一個(gè)學(xué)過(guò)基礎(chǔ)語(yǔ)言的人,現(xiàn)在要學(xué)習(xí)如何在不同的情境下使用這門(mén)語(yǔ)言。這個(gè)階段進(jìn)行了兩個(gè)循環(huán),使用了更小的學(xué)習(xí)率,以便進(jìn)行精細(xì)的調(diào)整。
八、測(cè)試的時(shí)刻:模型表現(xiàn)如何
要知道一個(gè)模型是否真的好,最重要的是在真實(shí)的任務(wù)上測(cè)試它。百度團(tuán)隊(duì)在多個(gè)公開(kāi)的基準(zhǔn)測(cè)試上評(píng)估了他們的模型。
首先是OmniDocBench v1.5,這是一個(gè)包含1355個(gè)文檔頁(yè)面的大型測(cè)試集,涵蓋了多種文檔類(lèi)型和語(yǔ)言。在這個(gè)測(cè)試上,PaddleOCR-VL取得了92.86的總體分?jǐn)?shù),超過(guò)了之前的最佳模型MinerU2.5的90.67分。更重要的是,在各個(gè)具體的任務(wù)上,這個(gè)模型都表現(xiàn)得很出色。在文本識(shí)別上,它的錯(cuò)誤率是0.035,這意味著平均每1000個(gè)字符中只有3.5個(gè)識(shí)別錯(cuò)誤。在公式識(shí)別上,它的CDM分?jǐn)?shù)是91.22,在表格識(shí)別上,它的TEDS分?jǐn)?shù)是90.89。
在OmniDocBench v1.0上,模型同樣表現(xiàn)優(yōu)異,在多個(gè)指標(biāo)上都達(dá)到了最先進(jìn)的水平。
還有olmOCR-Bench,這個(gè)測(cè)試集包含了1402個(gè)PDF文檔和7010個(gè)測(cè)試用例。這個(gè)測(cè)試的特點(diǎn)是使用了非常嚴(yán)格的評(píng)估標(biāo)準(zhǔn),不允許模糊的評(píng)分,而是要求模型的輸出完全正確。在這個(gè)嚴(yán)格的測(cè)試上,PaddleOCR-VL取得了80.0的分?jǐn)?shù),在多個(gè)類(lèi)別上都領(lǐng)先其他模型。
九、具體任務(wù)的深度評(píng)估
除了整體的文檔解析能力,團(tuán)隊(duì)還在四個(gè)具體的任務(wù)上進(jìn)行了詳細(xì)的評(píng)估。
在文本識(shí)別方面,他們使用了多個(gè)測(cè)試集。在OmniDocBench-OCR-block上,這個(gè)測(cè)試集包含了從真實(shí)文檔中提取的17148個(gè)文本塊,PaddleOCR-VL在幾乎所有的文檔類(lèi)型上都表現(xiàn)最好。在一個(gè)叫做In-house-OCR的內(nèi)部測(cè)試集上,這個(gè)集合包含了超過(guò)10萬(wàn)個(gè)樣本,涵蓋了多種語(yǔ)言和文本類(lèi)型,模型同樣表現(xiàn)出色。特別值得一提的是,它在處理多種語(yǔ)言上的表現(xiàn)——包括阿拉伯語(yǔ)、韓語(yǔ)、泰米爾語(yǔ)、希臘語(yǔ)、泰語(yǔ)、印地語(yǔ)、西里爾字母等——都達(dá)到了最先進(jìn)的水平。在處理各種文本類(lèi)型上,比如手寫(xiě)中文、手寫(xiě)英文、印刷文本、傳統(tǒng)中文、古文、豎排文字、單個(gè)字符和藝術(shù)字體,模型都表現(xiàn)得很好。
在表格識(shí)別方面,模型在OmniDocBench-Table-block上取得了0.9195的TEDS分?jǐn)?shù),這是一個(gè)非常高的分?jǐn)?shù)。在一個(gè)包含各種表格類(lèi)型的內(nèi)部測(cè)試集上,模型同樣表現(xiàn)優(yōu)異,在各個(gè)指標(biāo)上都超過(guò)了其他模型。
在公式識(shí)別方面,模型在OmniDocBench-Formula-block上取得了0.9453的CDM分?jǐn)?shù)。在一個(gè)包含34816個(gè)公式的內(nèi)部測(cè)試集上,模型的CDM分?jǐn)?shù)達(dá)到了0.9882,這意味著它能夠正確識(shí)別98.82%的公式。
在圖表識(shí)別方面,雖然公開(kāi)的測(cè)試集質(zhì)量不是很高,但在內(nèi)部的測(cè)試集上,模型取得了0.8440的RMS-F1分?jǐn)?shù),這個(gè)分?jǐn)?shù)超過(guò)了很多更大的模型。
十、速度的較量:為什么快速很重要
一個(gè)好的模型不僅要準(zhǔn)確,還要快速。畢竟,如果一個(gè)模型需要花費(fèi)幾個(gè)小時(shí)來(lái)處理一份文檔,那它在實(shí)際應(yīng)用中就沒(méi)有什么價(jià)值。
百度團(tuán)隊(duì)通過(guò)多種優(yōu)化技術(shù)來(lái)提高推理速度。他們使用了多線程異步執(zhí)行,把推理過(guò)程分成三個(gè)階段——數(shù)據(jù)加載、布局模型處理和VLM推理——每個(gè)階段在單獨(dú)的線程中運(yùn)行。這樣,當(dāng)一個(gè)階段在處理數(shù)據(jù)時(shí),另一個(gè)階段可以同時(shí)準(zhǔn)備下一批數(shù)據(jù),就像是一個(gè)流水線一樣。
此外,他們還使用了高效的推理引擎,比如vLLM和FastDeploy,這些引擎經(jīng)過(guò)了特殊的優(yōu)化,能夠充分利用GPU的計(jì)算能力。他們還調(diào)整了各種參數(shù),比如最大批處理令牌數(shù)和GPU內(nèi)存利用率,以找到速度和內(nèi)存消耗之間的最佳平衡。
在實(shí)際測(cè)試中,當(dāng)在一個(gè)NVIDIA A100 GPU上處理OmniDocBench v1.0數(shù)據(jù)集時(shí),PaddleOCR-VL使用FastDeploy后端可以達(dá)到每秒1.6184個(gè)頁(yè)面的處理速度,這比之前最好的模型MinerU2.5快了53.1%。如果考慮生成的令牌數(shù),PaddleOCR-VL每秒可以生成2486.4個(gè)令牌,比MinerU2.5快了50.9%。
十一、多語(yǔ)言支持:全球化的文檔處理
在一個(gè)全球化的世界里,文檔可能使用任何一種語(yǔ)言。百度團(tuán)隊(duì)的模型支持109種語(yǔ)言,這包括了世界上大多數(shù)主要語(yǔ)言。
這種廣泛的多語(yǔ)言支持不是偶然的。在訓(xùn)練數(shù)據(jù)的收集和處理過(guò)程中,團(tuán)隊(duì)特別注意了語(yǔ)言的多樣性。他們確保訓(xùn)練數(shù)據(jù)包含了各種不同的語(yǔ)言和文字系統(tǒng),從拉丁字母到阿拉伯字母,從漢字到天城文。
這意味著,無(wú)論你的文檔是用英文、中文、阿拉伯文、俄文、印地文還是其他任何語(yǔ)言寫(xiě)的,這個(gè)模型都能理解并正確處理。這對(duì)于跨國(guó)公司、國(guó)際組織和全球供應(yīng)鏈來(lái)說(shuō)是非常重要的。
十二、實(shí)際應(yīng)用中的表現(xiàn)
除了在標(biāo)準(zhǔn)測(cè)試集上的表現(xiàn),百度團(tuán)隊(duì)還展示了模型在真實(shí)世界文檔上的表現(xiàn)。這些文檔包括學(xué)術(shù)論文、報(bào)紙、教科書(shū)、考試試卷、手寫(xiě)筆記等等。在所有這些真實(shí)世界的場(chǎng)景中,模型都表現(xiàn)得很好,能夠準(zhǔn)確地識(shí)別和理解各種復(fù)雜的文檔元素。
這意味著,這個(gè)模型不僅在實(shí)驗(yàn)室里表現(xiàn)好,在真實(shí)的應(yīng)用場(chǎng)景中也能可靠地工作。
十三、為什么這很重要
這項(xiàng)研究的重要性不僅僅在于技術(shù)指標(biāo)的提升,更在于它解決的實(shí)際問(wèn)題。
首先,它證明了一個(gè)相對(duì)較小的模型(0.9B參數(shù))也能達(dá)到甚至超過(guò)更大模型的性能。這對(duì)于那些計(jì)算資源有限的組織和個(gè)人來(lái)說(shuō)是一個(gè)好消息。你不需要擁有超級(jí)計(jì)算機(jī)才能使用最先進(jìn)的文檔處理技術(shù)。
其次,它提供了一個(gè)完整的解決方案,不僅僅是一個(gè)模型,而是一個(gè)從數(shù)據(jù)收集、標(biāo)注、訓(xùn)練到推理的完整系統(tǒng)。這對(duì)于其他研究者和開(kāi)發(fā)者來(lái)說(shuō)提供了寶貴的參考。
第三,它在多個(gè)維度上都達(dá)到了最先進(jìn)的水平——準(zhǔn)確性、速度、資源效率和多語(yǔ)言支持。這使得它成為了一個(gè)真正可用的、實(shí)用的系統(tǒng)。
最后,它為大型語(yǔ)言模型在文檔理解中的應(yīng)用打開(kāi)了新的可能性。通過(guò)結(jié)合專(zhuān)門(mén)的布局分析模型和高效的視覺(jué)-語(yǔ)言模型,百度團(tuán)隊(duì)展示了如何在保持高性能的同時(shí)降低計(jì)算成本。
十四、未來(lái)的展望
這項(xiàng)研究為文檔處理領(lǐng)域的未來(lái)發(fā)展奠定了基礎(chǔ)。隨著越來(lái)越多的信息被數(shù)字化,自動(dòng)化文檔處理的需求只會(huì)增加。這個(gè)模型的出現(xiàn)意味著,更多的組織可以使用先進(jìn)的AI技術(shù)來(lái)處理他們的文檔,而不需要投入巨大的資金購(gòu)買(mǎi)昂貴的硬件。
這也為檢索增強(qiáng)生成(RAG)系統(tǒng)的改進(jìn)提供了基礎(chǔ)。RAG系統(tǒng)是現(xiàn)代AI應(yīng)用中的一個(gè)關(guān)鍵技術(shù),它允許大型語(yǔ)言模型訪問(wèn)外部知識(shí)庫(kù)。如果文檔處理變得更快、更準(zhǔn)確、更便宜,那么RAG系統(tǒng)就能提供更好的服務(wù)。
總的來(lái)說(shuō),百度飛槳團(tuán)隊(duì)的這項(xiàng)研究不僅是一個(gè)技術(shù)上的突破,更是一個(gè)實(shí)用性的突破。它證明了在AI時(shí)代,我們不需要盲目追求更大的模型,而是應(yīng)該追求更聰明的設(shè)計(jì)和更高效的實(shí)現(xiàn)。通過(guò)精心的架構(gòu)設(shè)計(jì)、高質(zhì)量的數(shù)據(jù)準(zhǔn)備和系統(tǒng)的優(yōu)化,一個(gè)相對(duì)較小的模型也能做出令人印象深刻的工作。
Q&A
Q1:PaddleOCR-VL是什么?它能處理哪些類(lèi)型的文檔內(nèi)容?
A:PaddleOCR-VL是百度飛槳團(tuán)隊(duì)開(kāi)發(fā)的文檔解析系統(tǒng),核心是一個(gè)僅有9億參數(shù)的輕量級(jí)視覺(jué)-語(yǔ)言模型。它能夠識(shí)別和處理文檔中的文字、表格、數(shù)學(xué)公式和圖表,支持109種語(yǔ)言,包括中文、英文、阿拉伯文、俄文等。
Q2:為什么PaddleOCR-VL比其他文檔識(shí)別模型更快更準(zhǔn)確?
A:該模型采用了兩階段的混合方案:先用專(zhuān)門(mén)的布局分析模型理解文檔結(jié)構(gòu),再用高效的視覺(jué)-語(yǔ)言模型識(shí)別具體內(nèi)容。它使用了NaViT動(dòng)態(tài)分辨率視覺(jué)編碼器和輕量級(jí)的ERNIE-4.5-0.3B語(yǔ)言模型,通過(guò)多線程異步執(zhí)行和高效推理引擎優(yōu)化,處理速度比前代快50%以上。
Q3:這個(gè)模型需要什么樣的硬件才能運(yùn)行?普通用戶能使用嗎?
A:PaddleOCR-VL僅需9億參數(shù),相比其他動(dòng)輒幾十億參數(shù)的模型要輕量得多,可以在單塊NVIDIA A100 GPU上高效運(yùn)行。百度已經(jīng)開(kāi)源了代碼和模型,普通用戶可以通過(guò)PaddlePaddle框架使用,或者通過(guò)在線演示體驗(yàn)其功能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.