![]()
一份20頁的財報掃描進系統(tǒng),你的電腦在后臺默默執(zhí)行了超過6000次順序計算。這不是加載慢,是OCR(光學字符識別)的底層架構(gòu)在"打字"——從左到右,一個token一個token地蹦。
視覺語言模型這幾年強得離譜,表格、公式、手寫體都能啃下來。但所有主流方案都套著同一個枷鎖:自回歸解碼(autoregressive decoding)。就像強迫一個能一目十行的人,必須用打字機抄完整本書。
MinerU-Diffusion團隊最近把這個枷鎖砸了。他們的論文核心就一句話:文檔解析本質(zhì)是2D空間任務,憑什么用1D流水線硬塞?
latency堆成山,錯誤還會傳染
自回歸的麻煩不止慢。假設模型在第50個token手滑寫錯一個字,這個錯誤會順著鏈條污染第51到第500個token。沒有撤回鍵,沒有并行修正,只有一路錯到底。
更荒誕的是輸入輸出的維度錯配。原始文檔是凍結(jié)的二維圖像——文字塊、表格線、公式框都有固定空間坐標。但模型非要把它壓扁成一條線,再假裝這條線有"先后順序"。
人類讀文檔可不是這么干的。你會先掃標題,再跳圖表,同時余光鎖定正文區(qū)域。空間關系是并行的、立體的,不是打字機式的線性流。
擴散模型:把生成變成"去噪拼圖"
MinerU-Diffusion的解法借鑒了圖像生成領域的擴散模型(diffusion model)。思路反轉(zhuǎn):不再從左到右"寫"出文本,而是從一堆噪聲開始,逐步去噪還原出完整的結(jié)構(gòu)化內(nèi)容。
關鍵突破在并行化。自回歸的每一步都依賴上一步輸出,天然串行;擴散模型的每一步去噪只依賴當前狀態(tài),所有token可以同時被預測、同時被修正。20頁文檔不再需要6000步順序推理,而是幾十輪并行迭代。
論文里的對比很直觀:同樣解析復雜學術PDF,傳統(tǒng)視覺語言模型受困于token長度限制和累積誤差,表格經(jīng)常對不齊、公式頻繁斷行。擴散方案一次性輸出完整版面,空間結(jié)構(gòu)直接保留在生成過程中。
為什么現(xiàn)在才有人想通?
這個方向被忽視,部分因為OCR的歷史包袱。早期系統(tǒng)確實是逐字符識別的,流水線思維寫進了基因。視覺語言模型興起后,大家忙著堆參數(shù)、擴上下文,沒質(zhì)疑過"順序生成"這個前提本身。
另一個原因是評估指標的誤導。字符準確率、詞錯誤率這些標準只關心"對不對",不關心"怎么生成的"。直到長文檔、復雜版式成為剛需,latency和錯誤傳播才從工程痛點變成架構(gòu)瓶頸。
MinerU-Diffusion的實驗顯示,在包含多欄布局、嵌套表格、行間公式的測試集上,并行生成不僅更快,結(jié)構(gòu)保真度也更高。因為空間關系不是事后對齊的,而是生成過程的內(nèi)置約束。
團隊把代碼和模型權重都放了出來。他們管這叫"逆渲染"(inverse rendering)——不是模擬人類閱讀,而是直接還原文檔的原始數(shù)字結(jié)構(gòu)。如果這路子跑通,掃描儀和打印機之間的那條"打字機流水線",可能真要進博物館了。
一個值得盯著的細節(jié):他們的演示里,同一份論文PDF用傳統(tǒng)方法解析要分三次截斷輸入,擴散方案一次性吐完整版。當你的文檔超過100頁時,這個差距會變成什么?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.