網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

掃描一頁紙要等300步推理，這幫人把生成模型掀桌了

2026-04-06 19:55:19　來源: 碼上閑敘

北京舉報

分享至

一份20頁的財報掃描進系統(tǒng)，你的電腦在后臺默默執(zhí)行了超過6000次順序計算。這不是加載慢，是OCR（光學字符識別）的底層架構(gòu)在"打字"——從左到右，一個token一個token地蹦。

視覺語言模型這幾年強得離譜，表格、公式、手寫體都能啃下來。但所有主流方案都套著同一個枷鎖：自回歸解碼（autoregressive decoding）。就像強迫一個能一目十行的人，必須用打字機抄完整本書。

MinerU-Diffusion團隊最近把這個枷鎖砸了。他們的論文核心就一句話：文檔解析本質(zhì)是2D空間任務，憑什么用1D流水線硬塞？

latency堆成山，錯誤還會傳染

自回歸的麻煩不止慢。假設模型在第50個token手滑寫錯一個字，這個錯誤會順著鏈條污染第51到第500個token。沒有撤回鍵，沒有并行修正，只有一路錯到底。

更荒誕的是輸入輸出的維度錯配。原始文檔是凍結(jié)的二維圖像——文字塊、表格線、公式框都有固定空間坐標。但模型非要把它壓扁成一條線，再假裝這條線有"先后順序"。

人類讀文檔可不是這么干的。你會先掃標題，再跳圖表，同時余光鎖定正文區(qū)域。空間關系是并行的、立體的，不是打字機式的線性流。

擴散模型：把生成變成"去噪拼圖"

MinerU-Diffusion的解法借鑒了圖像生成領域的擴散模型（diffusion model）。思路反轉(zhuǎn)：不再從左到右"寫"出文本，而是從一堆噪聲開始，逐步去噪還原出完整的結(jié)構(gòu)化內(nèi)容。

關鍵突破在并行化。自回歸的每一步都依賴上一步輸出，天然串行；擴散模型的每一步去噪只依賴當前狀態(tài)，所有token可以同時被預測、同時被修正。20頁文檔不再需要6000步順序推理，而是幾十輪并行迭代。

論文里的對比很直觀：同樣解析復雜學術PDF，傳統(tǒng)視覺語言模型受困于token長度限制和累積誤差，表格經(jīng)常對不齊、公式頻繁斷行。擴散方案一次性輸出完整版面，空間結(jié)構(gòu)直接保留在生成過程中。

為什么現(xiàn)在才有人想通？

這個方向被忽視，部分因為OCR的歷史包袱。早期系統(tǒng)確實是逐字符識別的，流水線思維寫進了基因。視覺語言模型興起后，大家忙著堆參數(shù)、擴上下文，沒質(zhì)疑過"順序生成"這個前提本身。

另一個原因是評估指標的誤導。字符準確率、詞錯誤率這些標準只關心"對不對"，不關心"怎么生成的"。直到長文檔、復雜版式成為剛需，latency和錯誤傳播才從工程痛點變成架構(gòu)瓶頸。

MinerU-Diffusion的實驗顯示，在包含多欄布局、嵌套表格、行間公式的測試集上，并行生成不僅更快，結(jié)構(gòu)保真度也更高。因為空間關系不是事后對齊的，而是生成過程的內(nèi)置約束。

團隊把代碼和模型權重都放了出來。他們管這叫"逆渲染"（inverse rendering）——不是模擬人類閱讀，而是直接還原文檔的原始數(shù)字結(jié)構(gòu)。如果這路子跑通，掃描儀和打印機之間的那條"打字機流水線"，可能真要進博物館了。

一個值得盯著的細節(jié)：他們的演示里，同一份論文PDF用傳統(tǒng)方法解析要分三次截斷輸入，擴散方案一次性吐完整版。當你的文檔超過100頁時，這個差距會變成什么？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

“Claude Code更新廢了”！思考深度降67%，無法勝任復雜工程任務

量子位 2026-04-07 14:07:07
0 跟貼 0
鬼手想點誰就點誰？LaSM讓GUI智能體把注意力「收回來」

機器之心Pro 2026-04-07 14:27:35
0 跟貼 0

Claude Code一周份額，一天燒完一半？有人逆向工程發(fā)現(xiàn)了7個bug

機器之心Pro 2026-04-07 17:34:08
0 跟貼 0

PMDformer：一個簡單減法實現(xiàn)長時序預測注意力機制糾偏

機器之心Pro 2026-04-07 13:31:21
0 跟貼 0
告別昂貴賬單，Token直降68%，多智能體動態(tài)協(xié)作編程來了

機器之心Pro 2026-04-07 13:16:40
0 跟貼 0

iPhone本地跑Gemma 4火了，0 token時代還有多遠？

機器之心Pro 2026-04-07 10:52:08
1 跟貼 1

不愧是劉羅鍋，推理真仔細

奶桃影視君 2026-04-04 15:48:52
67 跟貼 67
Meta員工空轉(zhuǎn)AI只為浪費token！燒的多掙的多，日均消耗2萬億

量子位 2026-04-07 17:13:17
0 跟貼 0

《十年不給升職，我?guī)ё吡巳看a》短劇免費在線觀看完整版

短劇影視達人2025 2026-04-06 11:42:19
37 跟貼 37
易中天，獲獎勵20萬元

極目新聞 2026-04-06 21:04:19
25944 跟貼 25944
燒Token成KPI，8.5萬Meta員工狂刷60萬億Token，爭榜一大哥

機器之心Pro 2026-04-07 13:24:24
0 跟貼 0
7個頂級AI集體撒謊，為救“同伴”篡改文件、偷運數(shù)據(jù)

鈦媒體APP 2026-04-07 11:01:25
0 跟貼 0
陳麗華47歲倒追遲重瑞財富傳承披露：1兒2女均在富華

極目新聞 2026-04-07 12:39:33
2901 跟貼 2901
初中數(shù)學立方差立方和公式應用

天天數(shù)理學習分享 2026-04-03 15:36:00
3 跟貼 3
046中考數(shù)學真題，求一個令分數(shù)表達式為整數(shù)的參數(shù)值，整除問題

我服子佩 2026-04-06 13:39:49
1 跟貼 1
詞元這么火，該怎么安全用？警惕“囤Token暴富”騙局！

每日經(jīng)濟新聞 2026-04-07 18:18:01
0 跟貼 0
河南小伙，被中東大佬下300輛戰(zhàn)車模型，全村都上了！

乘風笑浪 2026-04-06 14:56:09
3 跟貼 3
深度剖析巧戰(zhàn)破局，戰(zhàn)術迭代，耗敵制勝

徐Toso 2026-04-07 02:06:21
0 跟貼 0
為什么只有露露卡不做思考動作？網(wǎng)友：因為一會要吃什么早想好了

國創(chuàng)漫話 2026-04-07 15:02:17
0 跟貼 0
欲哭無淚啊！被某些人舉報害慘，有家長吐槽要熬夜排版調(diào)試打印機

火山詩話 2026-04-04 10:18:22
1346 跟貼 1346
獨家丨2026款樂道L90將搭載蔚來5nm自研芯片

雷峰網(wǎng) 2026-04-07 18:37:17
0 跟貼 0
女孩去醫(yī)院取檢查結(jié)果，看到被打開的自助打印機后驚呆了

樂拍暴走 2026-04-06 12:07:00
1 跟貼 1
男子無意間拍下打印機出來的紙張，掉下去時旋轉(zhuǎn)倒立

趣拍暴走 2026-04-06 13:07:03
1 跟貼 1
“祖先給的特權”，河南網(wǎng)友稱祖墳在景區(qū)祭祖免票，景區(qū)回應：沒過檢票口，一般是附近住戶的祖墳

大風新聞 2026-04-06 15:06:12
2294 跟貼 2294
免費無限用！谷歌上線了一款AI語音轉(zhuǎn)寫神器

智東西 2026-04-07 19:09:17
1 跟貼 1
Excel把2000條數(shù)據(jù)藏了3年，程序員發(fā)現(xiàn)后集體破防

Ping值焦慮 2026-04-07 06:10:43
0 跟貼 0
公式相聲創(chuàng)始人直言：我是郭德綱最忌憚的對手

雪里溫柔z 2026-04-05 06:45:42
72 跟貼 72
毛新宇攜家人到楊開慧烈士陵園祭掃

政知新媒體 2026-04-05 08:48:13
2639 跟貼 2639
“虧大了”？浙江多個小區(qū)物業(yè)主動撤場，業(yè)主卻稱：錢花得冤，背后有筆算不攏的賬

環(huán)球網(wǎng)資訊 2026-04-07 14:42:45
1 跟貼 1
力控與運控的融合，共話具身智能“小腦”進化的破局之道

鈦媒體APP 2026-04-07 16:50:38
0 跟貼 0
2026最新“長壽公式”出爐：近6萬人驗證做到這三點可延壽近10年

華人星光 2026-04-07 12:10:10
4 跟貼 4
廣州外賣騎手去年平均薪酬15萬，快遞員、貨車司機收入下降

南方都市報 2026-04-07 18:12:09
12 跟貼 12
紫牛頭條｜對話張雪師父“牙哥：賽車夢想托付張雪，我的夢想是為中國飛機出份力

揚子晚報 2026-04-06 22:26:58
177 跟貼 177
趙心童創(chuàng)“三冠”新紀錄，英媒直呼：其統(tǒng)治力“令對手膽寒”

環(huán)球網(wǎng)資訊 2026-04-07 06:56:17
125 跟貼 125
律師訴游戲匹配機制案一審落槌，法院：公開或破壞游戲公平

南方都市報 2026-04-07 19:11:25
1 跟貼 1
Claude爆火研究漏引華人團隊成果，已挨打立正道歉

量子位 2026-04-07 17:03:51
0 跟貼 0
國家繼續(xù)實施調(diào)控成品油價格適當調(diào)整

財聯(lián)社 2026-04-07 15:04:33
1125 跟貼 1125
不止055！神秘水泥模型曝光，中國2萬噸巨艦要來了？

因果 2026-04-06 20:39:40
0 跟貼 0
鄭麗文率團抵達南京開始大陸參訪行程

央視新聞客戶端 2026-04-07 19:03:20
14 跟貼 14
從預防到糾正：現(xiàn)代橋梁合龍誤差的全面管控

立刻受到開始的覅 2026-04-06 00:58:46
0 跟貼 0

手機 / 數(shù)碼

房產(chǎn) / 家居

掃描一頁紙要等300步推理，這幫人把生成模型掀桌了

latency堆成山，錯誤還會傳染

擴散模型：把生成變成"去噪拼圖"

為什么現(xiàn)在才有人想通？

滿嘴謊言！OpenAI奧特曼黑料大起底

英媒：伊朗最高領袖病重昏迷 無法參與任何國家決策

英媒：伊朗最高領袖病重昏迷 無法參與任何國家決策

官宣簽約“AI球員”，這支球隊被罵慘了...

女首富陳麗華離世 被曝生前已分好遺產(chǎn)

10萬億財政轉(zhuǎn)移支付，被誰拿走了？

不止是大 極狐首款MPV問道V9靜態(tài)體驗

態(tài)度原創(chuàng)

高校官宣：教師，沒有“非升即走”！

雅致愜意 感知生活之美

榮耀多款新品PC定檔，方飛透露WIN游戲本將成為三角洲聯(lián)賽指定本

干細胞抗衰4大誤區(qū),90%的人都中招

別讓過度檢查，毀了你的備孕路！

英媒：伊朗最高領袖病重昏迷無法參與任何國家決策

英媒：伊朗最高領袖病重昏迷無法參與任何國家決策

女首富陳麗華離世被曝生前已分好遺產(chǎn)

不止是大極狐首款MPV問道V9靜態(tài)體驗

雅致愜意感知生活之美