![]()
新智元報(bào)道
編輯:LRST
【新智元導(dǎo)讀】DeepRead讓AI像人一樣閱讀文檔:利用OCR識(shí)別章節(jié)結(jié)構(gòu),先精準(zhǔn)定位相關(guān)段落,再完整讀取上下文,避免碎片化檢索。實(shí)驗(yàn)顯示,其長(zhǎng)文檔問(wèn)答準(zhǔn)確率提升17%,能自動(dòng)跳過(guò)冗余信息,精準(zhǔn)提取財(cái)報(bào)、論文等復(fù)雜內(nèi)容,無(wú)需額外知識(shí)圖譜,輕量高效。
大語(yǔ)言模型的工具使用能力正推動(dòng)RAG從靜態(tài)的一次性檢索,向自主、多輪的證據(jù)獲取進(jìn)化,Agentic RAG已成為解決復(fù)雜問(wèn)答任務(wù)的核心方向。
但現(xiàn)有主流Agentic Search框架普遍存在一個(gè)關(guān)鍵痛點(diǎn)——結(jié)構(gòu)盲:它們將長(zhǎng)文檔視為無(wú)差別的扁平文本塊,忽略了文檔原生的層級(jí)組織(如章節(jié)、段落)和順序邏輯,導(dǎo)致檢索碎片化、證據(jù)遺漏、冗余操作等問(wèn)題頻發(fā)。
比如說(shuō),人類查詢「ACL論文投稿要求」時(shí),會(huì)先翻閱目錄找到「投稿指南」章節(jié),再逐段精讀關(guān)鍵信息。
但傳統(tǒng)Agentic Search(如Search-o1)卻只能通過(guò)不斷給出新的query反復(fù)檢索,可能遺漏「頁(yè)碼限制」「格式要求」等未被關(guān)鍵詞覆蓋的內(nèi)容,還會(huì)重復(fù)獲取已瀏覽過(guò)的片段。
![]()
這種「結(jié)構(gòu)盲」帶來(lái)三大問(wèn)題:
證據(jù)碎片化:將文檔拆分為固定大小的文本塊,破壞語(yǔ)義連貫性,迫使智能體拼接零散片段;
檢索冗余:缺乏全局結(jié)構(gòu)認(rèn)知,反復(fù)檢索同類信息,浪費(fèi)計(jì)算資源;
信息遺漏:依賴關(guān)鍵詞匹配,無(wú)法捕獲章節(jié)內(nèi)隱含的相關(guān)信息。
而現(xiàn)代OCR技術(shù)已能精準(zhǔn)提取文檔的層級(jí)結(jié)構(gòu)和閱讀順序,這為解決「結(jié)構(gòu)盲」提供了基礎(chǔ)——讓智能體學(xué)會(huì)利用這些原生結(jié)構(gòu),而非忽視它們。
中國(guó)科學(xué)院計(jì)算技術(shù)研究所團(tuán)隊(duì)提出的DeepRead,核心創(chuàng)新是將文檔結(jié)構(gòu)轉(zhuǎn)化為智能體可理解、可操作的坐標(biāo)系統(tǒng),通過(guò)兩大工具協(xié)同實(shí)現(xiàn)類人推理,整體框架參考下圖。
![]()
論文:https://arxiv.org/abs/2602.05014
代碼:https://github.com/Zhanli-Li/DeepRead
![]()
文檔結(jié)構(gòu)建模:給每個(gè)段落分配「坐標(biāo)」
DeepRead首先通過(guò)OCR工具將原始文檔轉(zhuǎn)化為結(jié)構(gòu)化Markdown格式,構(gòu)建雙維度結(jié)構(gòu)模型:
層級(jí)維度:區(qū)分標(biāo)題(如章節(jié))和內(nèi)容段落,記錄標(biāo)題的父子關(guān)系(如「2.方法」包含「2.1模型設(shè)計(jì)」);
順序維度:給每個(gè)段落分配唯一坐標(biāo)(doc_id, sec_id, para_idx),即「文檔ID-章節(jié)ID-段落索引」,讓每個(gè)文本片段都有明確的位置標(biāo)識(shí)。
同時(shí),DeepRead會(huì)將輕量化的目錄(TOC)注入系統(tǒng)提示,讓智能體掌握全局結(jié)構(gòu),無(wú)需加載全量文檔內(nèi)容,平衡上下文開(kāi)銷與結(jié)構(gòu)感知能力。
兩大核心工具:Retrieve與ReadSection的協(xié)同
DeepRead為智能體配備兩個(gè)互補(bǔ)工具,模擬人類「快速定位+深度閱讀」的行為:
Retrieve(掃描式定位):接收語(yǔ)義查詢,返回Top-K相關(guān)段落及其坐標(biāo),同時(shí)支持「掃描窗口」(在召回的段落加上前后各1段),模擬人類快速瀏覽上下文的行為;
ReadSection(聚焦式閱讀):接收坐標(biāo)范圍(如doc_id=1, sec_id=3, start_para=0, end_para=5),返回該范圍內(nèi)的連續(xù)、保序段落,重構(gòu)完整語(yǔ)義上下文,徹底解決碎片化問(wèn)題。
兩者形成閉環(huán):Retrieve負(fù)責(zé)「找方向」,快速鎖定相關(guān)章節(jié);ReadSection負(fù)責(zé)「深挖掘」,獲取完整證據(jù),避免關(guān)鍵詞檢索的局限性。
涌現(xiàn)行為:自主學(xué)會(huì)「定位再閱讀」
無(wú)需手動(dòng)編碼規(guī)則或是特定指令,DeepRead可自主進(jìn)化出類人推理策略:先通過(guò)Retrieve獲取結(jié)構(gòu)錨點(diǎn),再調(diào)用ReadSection精讀相關(guān)章節(jié)。實(shí)驗(yàn)顯示,90%以上的查詢會(huì)遵循這一范式,且工具調(diào)用比例會(huì)自適應(yīng)任務(wù)特性——ContextBench(長(zhǎng)文檔推理)更依賴ReadSection,F(xiàn)inanceBench(金融數(shù)據(jù)提取)更依賴Retrieve。
![]()
實(shí)驗(yàn)結(jié)果
跨場(chǎng)景的顯著提升
研究人員在四大基準(zhǔn)數(shù)據(jù)集(涵蓋單文檔/合成多文檔數(shù)據(jù)集)上驗(yàn)證了DeepRead的效果,核心結(jié)果參考下表
![]()
關(guān)鍵亮點(diǎn)包括:
長(zhǎng)文檔推理突破:在需長(zhǎng)距離依賴的ContextBench上,DeepRead準(zhǔn)確率從74.5%提升至91.5%,提升幅度達(dá)17.0%,驗(yàn)證了結(jié)構(gòu)感知對(duì)長(zhǎng)文檔的價(jià)值;
多文檔融合優(yōu)勢(shì):在基于QASPER(學(xué)術(shù)論文問(wèn)答)和SyllabusQA(課程大綱對(duì)比)合成的多文檔數(shù)據(jù)集上表現(xiàn)優(yōu)越,分別提升7.7%和13.8%,證明結(jié)構(gòu)感知能有效跨文檔整合證據(jù);
魯棒性驗(yàn)證:通過(guò)DeepSeek-V3.2、GLM-4.7、Qwen3-235B三大獨(dú)立法官評(píng)估,結(jié)果一致率達(dá)88.58%,確保提升并非偶然。
![]()
值得注意的是,DeepRead的優(yōu)勢(shì)并非來(lái)自「更多的檢索片段」——即使Search-o1允許檢索更多文本塊,仍無(wú)法彌補(bǔ)結(jié)構(gòu)缺失的差距;而盲目擴(kuò)展上下文(expand)可能會(huì)降低DeepRead在部分任務(wù)上的性能,因?yàn)榻Y(jié)構(gòu)化閱讀已能提供足夠連貫的證據(jù),冗余文本只會(huì)引入噪聲。
案例直觀感受:從「關(guān)鍵詞拼湊」到「章節(jié)精讀」
以FinanceBench中的亞馬遜營(yíng)收計(jì)算任務(wù)為例:
傳統(tǒng)Search-o1風(fēng)格的Agentic Search需反復(fù)檢索「2016營(yíng)收」「2017凈銷售額」等關(guān)鍵詞,可能混淆「預(yù)估數(shù)據(jù)」與「實(shí)際財(cái)報(bào)數(shù)據(jù)」;
DeepRead則先通過(guò)Retrieve定位到「合并利潤(rùn)表」章節(jié),再用ReadSection讀取完整表格,精準(zhǔn)提取2016年135987百萬(wàn)美元、2017年177866百萬(wàn)美元的凈銷售額,計(jì)算出30.8%的同比增長(zhǎng)率。
總結(jié)
DeepRead的核心價(jià)值在于:挖掘文檔原生結(jié)構(gòu)先驗(yàn),用輕量坐標(biāo)系統(tǒng)和協(xié)同工具,實(shí)現(xiàn)了Agentic RAG的結(jié)構(gòu)感知升級(jí)。
相比構(gòu)建復(fù)雜知識(shí)圖譜的方案,DeepRead無(wú)需額外結(jié)構(gòu)化成本,僅通過(guò)OCR解析和工具設(shè)計(jì),就在長(zhǎng)文檔、多文檔任務(wù)上實(shí)現(xiàn)顯著提升,兼具實(shí)用性和效率。
參考資料:
https://arxiv.org/abs/2602.05014
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.