<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI讀不懂文檔結(jié)構(gòu)?計(jì)算所重構(gòu)Agentic RAG文檔推理能力

      0
      分享至


      新智元報(bào)道

      編輯:LRST

      【新智元導(dǎo)讀】DeepRead讓AI像人一樣閱讀文檔:利用OCR識(shí)別章節(jié)結(jié)構(gòu),先精準(zhǔn)定位相關(guān)段落,再完整讀取上下文,避免碎片化檢索。實(shí)驗(yàn)顯示,其長(zhǎng)文檔問(wèn)答準(zhǔn)確率提升17%,能自動(dòng)跳過(guò)冗余信息,精準(zhǔn)提取財(cái)報(bào)、論文等復(fù)雜內(nèi)容,無(wú)需額外知識(shí)圖譜,輕量高效。

      大語(yǔ)言模型的工具使用能力正推動(dòng)RAG從靜態(tài)的一次性檢索,向自主、多輪的證據(jù)獲取進(jìn)化,Agentic RAG已成為解決復(fù)雜問(wèn)答任務(wù)的核心方向。

      但現(xiàn)有主流Agentic Search框架普遍存在一個(gè)關(guān)鍵痛點(diǎn)——結(jié)構(gòu)盲:它們將長(zhǎng)文檔視為無(wú)差別的扁平文本塊,忽略了文檔原生的層級(jí)組織(如章節(jié)、段落)和順序邏輯,導(dǎo)致檢索碎片化、證據(jù)遺漏、冗余操作等問(wèn)題頻發(fā)。

      比如說(shuō),人類查詢「ACL論文投稿要求」時(shí),會(huì)先翻閱目錄找到「投稿指南」章節(jié),再逐段精讀關(guān)鍵信息。

      但傳統(tǒng)Agentic Search(如Search-o1)卻只能通過(guò)不斷給出新的query反復(fù)檢索,可能遺漏「頁(yè)碼限制」「格式要求」等未被關(guān)鍵詞覆蓋的內(nèi)容,還會(huì)重復(fù)獲取已瀏覽過(guò)的片段。


      這種「結(jié)構(gòu)盲」帶來(lái)三大問(wèn)題:

      1. 證據(jù)碎片化:將文檔拆分為固定大小的文本塊,破壞語(yǔ)義連貫性,迫使智能體拼接零散片段;

      2. 檢索冗余:缺乏全局結(jié)構(gòu)認(rèn)知,反復(fù)檢索同類信息,浪費(fèi)計(jì)算資源;

      3. 信息遺漏:依賴關(guān)鍵詞匹配,無(wú)法捕獲章節(jié)內(nèi)隱含的相關(guān)信息。

      而現(xiàn)代OCR技術(shù)已能精準(zhǔn)提取文檔的層級(jí)結(jié)構(gòu)和閱讀順序,這為解決「結(jié)構(gòu)盲」提供了基礎(chǔ)——讓智能體學(xué)會(huì)利用這些原生結(jié)構(gòu),而非忽視它們。

      中國(guó)科學(xué)院計(jì)算技術(shù)研究所團(tuán)隊(duì)提出的DeepRead,核心創(chuàng)新是將文檔結(jié)構(gòu)轉(zhuǎn)化為智能體可理解、可操作的坐標(biāo)系統(tǒng),通過(guò)兩大工具協(xié)同實(shí)現(xiàn)類人推理,整體框架參考下圖。


      論文:https://arxiv.org/abs/2602.05014

      代碼:https://github.com/Zhanli-Li/DeepRead


      文檔結(jié)構(gòu)建模:給每個(gè)段落分配「坐標(biāo)」

      DeepRead首先通過(guò)OCR工具將原始文檔轉(zhuǎn)化為結(jié)構(gòu)化Markdown格式,構(gòu)建雙維度結(jié)構(gòu)模型:

      • 層級(jí)維度:區(qū)分標(biāo)題(如章節(jié))和內(nèi)容段落,記錄標(biāo)題的父子關(guān)系(如「2.方法」包含「2.1模型設(shè)計(jì)」);

      • 順序維度:給每個(gè)段落分配唯一坐標(biāo)(doc_id, sec_id, para_idx),即「文檔ID-章節(jié)ID-段落索引」,讓每個(gè)文本片段都有明確的位置標(biāo)識(shí)。

      同時(shí),DeepRead會(huì)將輕量化的目錄(TOC)注入系統(tǒng)提示,讓智能體掌握全局結(jié)構(gòu),無(wú)需加載全量文檔內(nèi)容,平衡上下文開(kāi)銷與結(jié)構(gòu)感知能力。

      兩大核心工具:Retrieve與ReadSection的協(xié)同

      DeepRead為智能體配備兩個(gè)互補(bǔ)工具,模擬人類「快速定位+深度閱讀」的行為:

      • Retrieve(掃描式定位):接收語(yǔ)義查詢,返回Top-K相關(guān)段落及其坐標(biāo),同時(shí)支持「掃描窗口」(在召回的段落加上前后各1段),模擬人類快速瀏覽上下文的行為;

      • ReadSection(聚焦式閱讀):接收坐標(biāo)范圍(如doc_id=1, sec_id=3, start_para=0, end_para=5),返回該范圍內(nèi)的連續(xù)、保序段落,重構(gòu)完整語(yǔ)義上下文,徹底解決碎片化問(wèn)題。

      兩者形成閉環(huán):Retrieve負(fù)責(zé)「找方向」,快速鎖定相關(guān)章節(jié);ReadSection負(fù)責(zé)「深挖掘」,獲取完整證據(jù),避免關(guān)鍵詞檢索的局限性。

      涌現(xiàn)行為:自主學(xué)會(huì)「定位再閱讀」

      無(wú)需手動(dòng)編碼規(guī)則或是特定指令,DeepRead可自主進(jìn)化出類人推理策略:先通過(guò)Retrieve獲取結(jié)構(gòu)錨點(diǎn),再調(diào)用ReadSection精讀相關(guān)章節(jié)。實(shí)驗(yàn)顯示,90%以上的查詢會(huì)遵循這一范式,且工具調(diào)用比例會(huì)自適應(yīng)任務(wù)特性——ContextBench(長(zhǎng)文檔推理)更依賴ReadSection,F(xiàn)inanceBench(金融數(shù)據(jù)提取)更依賴Retrieve。


      實(shí)驗(yàn)結(jié)果

      跨場(chǎng)景的顯著提升

      研究人員在四大基準(zhǔn)數(shù)據(jù)集(涵蓋單文檔/合成多文檔數(shù)據(jù)集)上驗(yàn)證了DeepRead的效果,核心結(jié)果參考下表


      關(guān)鍵亮點(diǎn)包括:

      1. 長(zhǎng)文檔推理突破:在需長(zhǎng)距離依賴的ContextBench上,DeepRead準(zhǔn)確率從74.5%提升至91.5%,提升幅度達(dá)17.0%,驗(yàn)證了結(jié)構(gòu)感知對(duì)長(zhǎng)文檔的價(jià)值;

      2. 多文檔融合優(yōu)勢(shì):在基于QASPER(學(xué)術(shù)論文問(wèn)答)和SyllabusQA(課程大綱對(duì)比)合成的多文檔數(shù)據(jù)集上表現(xiàn)優(yōu)越,分別提升7.7%和13.8%,證明結(jié)構(gòu)感知能有效跨文檔整合證據(jù);

      3. 魯棒性驗(yàn)證:通過(guò)DeepSeek-V3.2、GLM-4.7、Qwen3-235B三大獨(dú)立法官評(píng)估,結(jié)果一致率達(dá)88.58%,確保提升并非偶然。


      值得注意的是,DeepRead的優(yōu)勢(shì)并非來(lái)自「更多的檢索片段」——即使Search-o1允許檢索更多文本塊,仍無(wú)法彌補(bǔ)結(jié)構(gòu)缺失的差距;而盲目擴(kuò)展上下文(expand)可能會(huì)降低DeepRead在部分任務(wù)上的性能,因?yàn)榻Y(jié)構(gòu)化閱讀已能提供足夠連貫的證據(jù),冗余文本只會(huì)引入噪聲。

      案例直觀感受:從「關(guān)鍵詞拼湊」到「章節(jié)精讀」

      以FinanceBench中的亞馬遜營(yíng)收計(jì)算任務(wù)為例:

      • 傳統(tǒng)Search-o1風(fēng)格的Agentic Search需反復(fù)檢索「2016營(yíng)收」「2017凈銷售額」等關(guān)鍵詞,可能混淆「預(yù)估數(shù)據(jù)」與「實(shí)際財(cái)報(bào)數(shù)據(jù)」;

      • DeepRead則先通過(guò)Retrieve定位到「合并利潤(rùn)表」章節(jié),再用ReadSection讀取完整表格,精準(zhǔn)提取2016年135987百萬(wàn)美元、2017年177866百萬(wàn)美元的凈銷售額,計(jì)算出30.8%的同比增長(zhǎng)率。


      總結(jié)

      DeepRead的核心價(jià)值在于:挖掘文檔原生結(jié)構(gòu)先驗(yàn),用輕量坐標(biāo)系統(tǒng)和協(xié)同工具,實(shí)現(xiàn)了Agentic RAG的結(jié)構(gòu)感知升級(jí)。

      相比構(gòu)建復(fù)雜知識(shí)圖譜的方案,DeepRead無(wú)需額外結(jié)構(gòu)化成本,僅通過(guò)OCR解析和工具設(shè)計(jì),就在長(zhǎng)文檔、多文檔任務(wù)上實(shí)現(xiàn)顯著提升,兼具實(shí)用性和效率。

      參考資料:

      https://arxiv.org/abs/2602.05014

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      比亞迪再掀價(jià)格戰(zhàn):8.98萬(wàn)續(xù)航2110km,合資車徹底慌了

      比亞迪再掀價(jià)格戰(zhàn):8.98萬(wàn)續(xù)航2110km,合資車徹底慌了

      華庭講美食
      2026-04-10 17:03:23
      洛夫頓傷情更新!盧偉親承比較嚴(yán)重,就不應(yīng)該帶傷出戰(zhàn)的!

      洛夫頓傷情更新!盧偉親承比較嚴(yán)重,就不應(yīng)該帶傷出戰(zhàn)的!

      籃球資訊達(dá)人
      2026-04-10 22:52:56
      985的教授教博士們研發(fā)摩托車發(fā)動(dòng)機(jī),為什么他們沒(méi)把冠軍干出來(lái)

      985的教授教博士們研發(fā)摩托車發(fā)動(dòng)機(jī),為什么他們沒(méi)把冠軍干出來(lái)

      狐貍先森講升學(xué)規(guī)劃
      2026-04-08 16:10:03
      美載人繞月飛船返回地球 濺落在預(yù)定海域

      美載人繞月飛船返回地球 濺落在預(yù)定海域

      財(cái)聯(lián)社
      2026-04-11 08:12:14
      中央明確:社保最低繳費(fèi)年限要提高,70、80后早做準(zhǔn)備

      中央明確:社保最低繳費(fèi)年限要提高,70、80后早做準(zhǔn)備

      混沌錄
      2026-04-10 17:39:15
      鄭麗文想要的,大陸給得很爽快,隨行人員有驚喜,藍(lán)營(yíng)一姐發(fā)話了

      鄭麗文想要的,大陸給得很爽快,隨行人員有驚喜,藍(lán)營(yíng)一姐發(fā)話了

      瑛派兒老黃
      2026-04-11 11:24:15
      爭(zhēng)四形式不容樂(lè)觀!杜蘭特33分創(chuàng)紀(jì)錄,火箭8連勝遭森林狼終結(jié)

      爭(zhēng)四形式不容樂(lè)觀!杜蘭特33分創(chuàng)紀(jì)錄,火箭8連勝遭森林狼終結(jié)

      全景體育V
      2026-04-11 12:09:03
      王淺秋發(fā)聲!鄭麗文收獲滿滿,獲一邊倒力挺,盧秀燕改口有深意!

      王淺秋發(fā)聲!鄭麗文收獲滿滿,獲一邊倒力挺,盧秀燕改口有深意!

      相思賦予誰(shuí)a
      2026-04-09 15:15:33
      跳水運(yùn)動(dòng)員練俊杰社媒遭圍攻,被網(wǎng)友指責(zé)曾在全紅嬋黑粉群

      跳水運(yùn)動(dòng)員練俊杰社媒遭圍攻,被網(wǎng)友指責(zé)曾在全紅嬋黑粉群

      懂球帝
      2026-04-10 23:15:10
      7歲女童陰道炎反復(fù)難愈,手術(shù)后竟然取出一整支精華液!

      7歲女童陰道炎反復(fù)難愈,手術(shù)后竟然取出一整支精華液!

      深圳晚報(bào)
      2026-04-09 16:19:33
      后悔了!曼聯(lián)棄將的真情告白:與阿莫林決裂是職業(yè)生涯最大的錯(cuò)誤

      后悔了!曼聯(lián)棄將的真情告白:與阿莫林決裂是職業(yè)生涯最大的錯(cuò)誤

      體壇鑒春秋
      2026-04-11 11:59:23
      中國(guó)引進(jìn)最成功的航空發(fā)動(dòng)機(jī),它的裝備為空軍緩解了30年的壓力

      中國(guó)引進(jìn)最成功的航空發(fā)動(dòng)機(jī),它的裝備為空軍緩解了30年的壓力

      小熊侃史
      2026-04-10 10:15:23
      中東停火不到24小時(shí),美國(guó)就調(diào)轉(zhuǎn)槍口對(duì)準(zhǔn)中國(guó),F(xiàn)-35密集“壓境”

      中東停火不到24小時(shí),美國(guó)就調(diào)轉(zhuǎn)槍口對(duì)準(zhǔn)中國(guó),F(xiàn)-35密集“壓境”

      有范又有料
      2026-04-09 15:55:08
      男演員最新聲明:已退出美國(guó)國(guó)籍,正式成為中國(guó)公民

      男演員最新聲明:已退出美國(guó)國(guó)籍,正式成為中國(guó)公民

      美芽
      2026-04-08 18:02:54
      醫(yī)生提醒:若長(zhǎng)期一天只吃兩頓飯,用不了半年,或患上這4種疾病

      醫(yī)生提醒:若長(zhǎng)期一天只吃兩頓飯,用不了半年,或患上這4種疾病

      奇妙的本草
      2026-04-11 11:59:46
      有沒(méi)有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

      有沒(méi)有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

      夜深愛(ài)雜談
      2026-02-18 20:55:58
      3-0橫掃!中超黑馬豪取3連勝,本土主帥李國(guó)旭神了:擊敗3大強(qiáng)隊(duì)

      3-0橫掃!中超黑馬豪取3連勝,本土主帥李國(guó)旭神了:擊敗3大強(qiáng)隊(duì)

      足球狗說(shuō)
      2026-04-10 21:32:30
      鄭麗文一行參訪國(guó)家大劇院

      鄭麗文一行參訪國(guó)家大劇院

      京彩臺(tái)灣
      2026-04-11 09:10:09
      特朗普稱霍爾木茲海峽將“很快”開(kāi)放

      特朗普稱霍爾木茲海峽將“很快”開(kāi)放

      界面新聞
      2026-04-11 07:00:21
      搶在鄭麗文返臺(tái)前,解放軍定調(diào)統(tǒng)一,長(zhǎng)鷹8升空,航程超三千公里

      搶在鄭麗文返臺(tái)前,解放軍定調(diào)統(tǒng)一,長(zhǎng)鷹8升空,航程超三千公里

      影孖看世界
      2026-04-10 23:09:08
      2026-04-11 12:31:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      14945文章數(shù) 66765關(guān)注度
      往期回顧 全部

      科技要聞

      阿爾忒彌斯2號(hào)成功濺落,隔熱罩驚險(xiǎn)過(guò)關(guān)

      頭條要聞

      "遲重瑞與陳麗華年輕時(shí)合影"熱傳 當(dāng)事女子:張冠李戴

      頭條要聞

      "遲重瑞與陳麗華年輕時(shí)合影"熱傳 當(dāng)事女子:張冠李戴

      體育要聞

      換帥之后,他們從降級(jí)區(qū)沖到升級(jí)區(qū)

      娛樂(lè)要聞

      浪姐7淘汰 該走的沒(méi)走,不該走的走了

      財(cái)經(jīng)要聞

      從日本翻身看:這次誰(shuí)能扛住高油價(jià)?

      汽車要聞

      煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

      態(tài)度原創(chuàng)

      藝術(shù)
      家居
      游戲
      公開(kāi)課
      軍事航空

      藝術(shù)要聞

      17位當(dāng)代青年畫(huà)家油畫(huà)欣賞

      家居要聞

      復(fù)古風(fēng)格 自然簡(jiǎn)約

      《eFootball》下載量突破10億次 經(jīng)典大師聯(lián)賽回歸

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:對(duì)美國(guó)與伊朗達(dá)成和平協(xié)議“非常樂(lè)觀”

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版