<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OCR 新紀元,超強文檔解析 Skills 來了

      0
      分享至


      知識管理缺了一塊拼圖

      前段時間我在一文中介紹了 Karpathy 的知識管理方法——把各種原始素材統統丟進raw/目錄,用 Obsidian Web Clipper 一鍵裁剪網頁,配合 LLM 慢慢「編譯」成結構化 wiki

      這個思路是對的,先不管三七二十一,把所有原始材料攢在一起。但問題來了:實際工作中,原始材料可不只是網頁和 Markdown

      合同、財報、研報是 PDF、內部培訓材料是 PPT、數據是 Excel,各種文檔是 Word……這些東西直接扔給大模型,輕則格式一塌糊涂,重則整個表格都消失了,跨頁的更是截成碎片。做過 RAG 的都知道,解析是第一道關,解析不好,后面再聰明也白搭——垃圾進,垃圾出

      OCR、文檔解析相關我寫過 N 多篇:DeepSeek-OCR、HunyuanOCR、PaddleOCR、GLM-OCR、MinerU 等,橫向對比了以上開源方案,從落地層面我最推薦的可能還是一文中我實測過的TextIn xParse,實力我就不單獨摘過來了,總之很強!

      現在 xparse-parse 的 Skills 發布了,試用之后感覺:這才是最省心的方式

      先說大家最關心的格式支持問題,再細說安裝的事兒

      格式支持

      TextIn xParse 屬于商業工具,但這次的skill提供了每日1000頁的額度,個人使用完全足夠

      • 格式支持:PDF+圖片(JPG/PNG/BMP/TIFF/WebP),≤10MB,每日1000頁,1次/秒

      • 配置憑證后:https://cc.co/16YSe8(注冊后獲取APP IDSecret Code),全格式解鎖Word、Excel、PPT、HTML、OFD、RTF等20+格式,單文件≤500MB,無每日頁數上限

      Skills 地址:github.com/intsig-textin/xparse-skills

      核心是兩樣東西:

      • SKILL.md——告訴 Agent 什么時候觸發文檔解析、怎么路由

      • xparse-cli——Go 編寫的跨平臺二進制工具,底層調用 TextIn xParser API

      整個工作流如下圖:


      用戶說一句話 → Agent 自動識別是文檔任務 → 觸發 xparse-parse Skill → 調用 xparse-cli → 根據有無憑證自動走免費/付費 API → 返回 Markdown 或 JSON。

      全程你不用寫一行代碼,甚至不用知道 xparse-cli 怎么用

      安裝方式

      方式一:對話框一句話安裝

      在 Agent 對話框直接說:

      幫我從技能市場安裝 intsig-textin/xparse-parser

      方式二:npx 命令安裝(強烈推薦)

      npx skills add intsig-textin/xparse-skills

      我最推薦這種方式,比較優雅


      而且還可以一鍵安裝到所有 Agent 工具中


      憑證配置只要一條命令:

      xparse-cli auth

      按提示輸入 App ID 和 Secret Code,保存到~/.xparse-cli/config.yaml,后續自動讀取

      也支持環境變量方式(適合 CI/CD):

      export XPARSE_APP_ID=your_app_id
      export XPARSE_SECRET_CODE=your_secret_code
      用法

      在 OpenClaw、Claude Code 等 Agent 平臺安裝 xparse-parser Skill 后,只需自然語言指令即可完成解析全流程

      例如:

      • “幫我讀一下這份PDF合同,提取關鍵條款”

      • “把這個報告轉成Markdown,保存到桌面”

      • “這份加密PDF密碼是123456,幫我解析前10頁”

      • “提取這張表格圖片里的內容,輸出JSON”

      核心命令詳解

      這里大家了解就行了,其實配置好 Skills之后,完全不需要記住這些

      # 最基礎:解析 PDF,輸出 Markdown 到終端
      xparse-cli parse report.pdf

      # 輸出結構化 JSON
      xparse-cli parse report.pdf --view json

      # 保存到目錄(自動命名為 report.md / report.json)
      xparse-cli parse report.pdf --output ./result/

      # 保存到指定文件
      xparse-cli parse report.pdf --output parsed.md

      # 只解析指定頁碼范圍(支持多段)
      xparse-cli parse report.pdf --page-range 1-5
      xparse-cli parse report.pdf --page-range 1-2,5-10

      # 解析加密 PDF
      xparse-cli parse secret.pdf --password mypassword

      # 獲取字符級坐標和置信度(做人工核驗時用)
      xparse-cli parse report.pdf --view json --include-char-details --output ./parsed.json

      值得注意的是,CLI默認已經開啟了一套完整的解析能力,不需要額外配置:

      能力

      標題層級

      自動識別文檔結構,最多 5 級標題

      表格結構

      HTML 格式保留單元格層級

      圖片提取

      內嵌圖片識別和提取

      目錄樹

      自動生成文檔 TOC

      分頁結果

      頁面級元數據

      唯一需要手動開啟的是--include-char-details(字符坐標),因為這個會大幅增加返回數據量,按需開啟

      幾個實用進階玩法

      ① 管道組合,直接喂給 LLM

      # 解析后搜索關鍵詞
      xparse-cli parse report.pdf | grep "revenue"


      # 解析完直接喂給 LLM 總結
      xparse-cli parse paper.pdf | llm "summarize this paper"

      ② 批量處理

      # 準備一個文件列表 files.txt,一行一個路徑
      xparse-cli parse --list files.txt --output ./results/

      ③ 從解析結果里下載圖片

      # 先解析為 JSON
      xparse-cli parse report.pdf --view json --output result.json


      # 再從 JSON 里批量下載所有圖片
      xparse-cli download --from result.json --output ./images/

      ④ 私有化部署

      如果是私有部署的 TextIn 服務,可以通過--base-url指定:

      xparse-cli parse report.pdf --base-url https://your-private-server.com
      總結

      xparse-parse Skill 這個組合,我覺得把文檔解析這件事做到了目前最低門檻的狀態:

      適合你用的場景:

      • 用 Agent 做個人知識管理,原料里有大量 PDF/Word/PPT

      • 搭建 RAG 知識庫,需要高精度的文檔結構化

      • 日常工作要解析合同、財報、研報這類復雜文檔

      優缺點直說:

      評價

      ? 零代碼零門檻

      說話就能用,適合所有技術水平

      ? 復雜表格能力強

      跨頁拼接、合并單元格、無線表格都不虛

      ? 免費額度夠用

      PDF+ 圖片 1000 頁/天,輕度使用完全夠

      ? 管道/批量支持

      可與 LLM、腳本組合,適合自動化流水線

      ?? Word/PPT/Excel 需付費

      免費版只有 PDF 和圖片

      ?? 免費版 10MB 限制

      大型 PDF 需要付費賬戶

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      重要突破,科學家注射一個腫瘤細胞,全身癌細胞竟然消失

      重要突破,科學家注射一個腫瘤細胞,全身癌細胞竟然消失

      心中的麥田
      2026-04-19 18:26:11
      美國至少10名科研人員離奇死亡或神秘失蹤引發廣泛關注!大都接觸UFO、航空航天、原子能等涉密項目,白宮承諾:徹查

      美國至少10名科研人員離奇死亡或神秘失蹤引發廣泛關注!大都接觸UFO、航空航天、原子能等涉密項目,白宮承諾:徹查

      大風新聞
      2026-04-20 09:35:11
      特朗普第一任期的白宮律師突然爆猛料:特朗普已經撐不下去了

      特朗普第一任期的白宮律師突然爆猛料:特朗普已經撐不下去了

      西樓知趣雜談
      2026-04-19 21:25:23
      快檢查自家陽臺!有人家里已大量出現,官方提醒:千萬別摸

      快檢查自家陽臺!有人家里已大量出現,官方提醒:千萬別摸

      環球網資訊
      2026-04-18 16:23:18
      伊朗總統:美國持續背信棄義 做出霸凌且不合理行為

      伊朗總統:美國持續背信棄義 做出霸凌且不合理行為

      中國網
      2026-04-20 11:09:10
      普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

      普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

      田園小歸
      2026-04-20 09:17:43
      爭議?對手疑似伸腿踹張雪機車惹怒中國網友 張雪:很正常+很干凈

      爭議?對手疑似伸腿踹張雪機車惹怒中國網友 張雪:很正常+很干凈

      風過鄉
      2026-04-20 06:45:19
      斯諾克世錦賽:丁俊暉送大禮!吉爾伯特被罰12分逆轉,僅2-3落后

      斯諾克世錦賽:丁俊暉送大禮!吉爾伯特被罰12分逆轉,僅2-3落后

      劉姚堯的文字城堡
      2026-04-19 19:17:56
      學術不端是學術晉級的最快捷徑

      學術不端是學術晉級的最快捷徑

      必記本
      2026-04-19 22:50:38
      王金平力挺了鄭麗文后,連勝文發聲了,竟主動為朱立倫證實1件事

      王金平力挺了鄭麗文后,連勝文發聲了,竟主動為朱立倫證實1件事

      瀲滟晴方DAY
      2026-04-20 06:55:07
      研究發現:脂肪肝人若常補B族維生素,用不了多久,身體或有3好處

      研究發現:脂肪肝人若常補B族維生素,用不了多久,身體或有3好處

      小胡軍事愛好
      2026-03-05 20:56:45
      季后賽首秀35分!就在今天,一項鄧肯保持的NBA紀錄被文班打破了

      季后賽首秀35分!就在今天,一項鄧肯保持的NBA紀錄被文班打破了

      世界體育圈
      2026-04-20 12:45:16
      魏建軍提議私家車10年后再年檢,用OBD和車聯網替代實地檢測

      魏建軍提議私家車10年后再年檢,用OBD和車聯網替代實地檢測

      快科技
      2026-04-19 08:19:03
      為什么全國人民都在拒接電話?

      為什么全國人民都在拒接電話?

      黯泉
      2026-04-18 17:00:56
      中國永遠的校長,死于1962年

      中國永遠的校長,死于1962年

      最愛歷史
      2024-05-20 13:30:17
      隨著巴黎圣日耳曼爆大冷門1-2,法甲最新積分榜出爐:爭冠白熱化

      隨著巴黎圣日耳曼爆大冷門1-2,法甲最新積分榜出爐:爭冠白熱化

      側身凌空斬
      2026-04-20 07:55:12
      上海長征醫院浦東院區啟用,緊鄰9號線曹路站!明后天推出院內大型義診

      上海長征醫院浦東院區啟用,緊鄰9號線曹路站!明后天推出院內大型義診

      上觀新聞
      2026-04-20 11:18:09
      前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢倒下就是紅牌

      前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢倒下就是紅牌

      懂球帝
      2026-04-20 08:00:07
      字母哥離隊倒計時!四隊瘋搶,雄鹿超市即將開張

      字母哥離隊倒計時!四隊瘋搶,雄鹿超市即將開張

      茅塞盾開本尊
      2026-04-20 12:22:09
      于海青:為何說廣東黃坤明書記不斷下基層讓企業信心滿滿?

      于海青:為何說廣東黃坤明書記不斷下基層讓企業信心滿滿?

      于海青
      2026-04-19 19:54:18
      2026-04-20 12:59:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3334文章數 11137關注度
      往期回顧 全部

      科技要聞

      藍色起源一級火箭完美回收 客戶衛星未入軌

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      體育要聞

      七大獎項候選官宣!文班或全票DPOY

      娛樂要聞

      鹿晗生日上熱搜,被關曉彤撕下體面

      財經要聞

      月之暗面IPO迷局

      汽車要聞

      把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態度原創

      旅游
      親子
      游戲
      教育
      軍事航空

      旅游要聞

      800年紫藤花開如瀑 最美寧陽四月天

      親子要聞

      女孩兒學壞,多半栽在初中

      異世界自動化模擬經營游戲《退休勇者當廠長》現已正式上架Steam

      教育要聞

      我發現一個殘酷真相:孩子長大后,最怨恨的不是管太嚴的父母……

      軍事要聞

      特朗普:美艦向伊朗貨船開火炸出個洞

      無障礙瀏覽 進入關懷版