網易首頁 > 網易號 > 正文申請入駐

OCR 新紀元，超強文檔解析 Skills 來了

2026-04-15 11:02:21　來源: Ai學習的老章

北京舉報

分享至

知識管理缺了一塊拼圖

前段時間我在一文中介紹了 Karpathy 的知識管理方法——把各種原始素材統統丟進raw/目錄，用 Obsidian Web Clipper 一鍵裁剪網頁，配合 LLM 慢慢「編譯」成結構化 wiki

這個思路是對的，先不管三七二十一，把所有原始材料攢在一起。但問題來了：實際工作中，原始材料可不只是網頁和 Markdown

合同、財報、研報是 PDF、內部培訓材料是 PPT、數據是 Excel，各種文檔是 Word……這些東西直接扔給大模型，輕則格式一塌糊涂，重則整個表格都消失了，跨頁的更是截成碎片。做過 RAG 的都知道，解析是第一道關，解析不好，后面再聰明也白搭——垃圾進，垃圾出

OCR、文檔解析相關我寫過 N 多篇：DeepSeek-OCR、HunyuanOCR、PaddleOCR、GLM-OCR、MinerU 等，橫向對比了以上開源方案，從落地層面我最推薦的可能還是一文中我實測過的TextIn xParse，實力我就不單獨摘過來了，總之很強！

現在 xparse-parse 的 Skills 發布了，試用之后感覺：這才是最省心的方式

先說大家最關心的格式支持問題，再細說安裝的事兒

格式支持

TextIn xParse 屬于商業工具，但這次的skill提供了每日1000頁的額度，個人使用完全足夠

格式支持：PDF+圖片(JPG/PNG/BMP/TIFF/WebP)，≤10MB，每日1000頁，1次/秒
配置憑證后：https://cc.co/16YSe8（注冊后獲取APP ID和Secret Code），全格式解鎖Word、Excel、PPT、HTML、OFD、RTF等20+格式，單文件≤500MB，無每日頁數上限

Skills 地址：github.com/intsig-textin/xparse-skills

核心是兩樣東西：

SKILL.md——告訴 Agent 什么時候觸發文檔解析、怎么路由
xparse-cli——Go 編寫的跨平臺二進制工具，底層調用 TextIn xParser API

整個工作流如下圖：

用戶說一句話 → Agent 自動識別是文檔任務 → 觸發 xparse-parse Skill → 調用 xparse-cli → 根據有無憑證自動走免費/付費 API → 返回 Markdown 或 JSON。

全程你不用寫一行代碼，甚至不用知道 xparse-cli 怎么用

安裝方式

方式一：對話框一句話安裝

在 Agent 對話框直接說：

幫我從技能市場安裝 intsig-textin/xparse-parser

方式二：npx 命令安裝（強烈推薦）

npx skills add intsig-textin/xparse-skills

我最推薦這種方式，比較優雅

而且還可以一鍵安裝到所有 Agent 工具中

憑證配置只要一條命令：

xparse-cli auth

按提示輸入 App ID 和 Secret Code，保存到~/.xparse-cli/config.yaml，后續自動讀取

也支持環境變量方式（適合 CI/CD）：

export XPARSE_APP_ID=your_app_id
export XPARSE_SECRET_CODE=your_secret_code

用法

在 OpenClaw、Claude Code 等 Agent 平臺安裝 xparse-parser Skill 后，只需自然語言指令即可完成解析全流程

例如：

“幫我讀一下這份PDF合同，提取關鍵條款”
“把這個報告轉成Markdown，保存到桌面”
“這份加密PDF密碼是123456，幫我解析前10頁”
“提取這張表格圖片里的內容，輸出JSON”

核心命令詳解

這里大家了解就行了，其實配置好 Skills之后，完全不需要記住這些

# 最基礎：解析 PDF，輸出 Markdown 到終端
xparse-cli parse report.pdf

 # 輸出結構化 JSON
xparse-cli parse report.pdf --view json

 # 保存到目錄（自動命名為 report.md / report.json）
xparse-cli parse report.pdf --output ./result/

 # 保存到指定文件
xparse-cli parse report.pdf --output parsed.md

 # 只解析指定頁碼范圍（支持多段）
xparse-cli parse report.pdf --page-range 1-5
xparse-cli parse report.pdf --page-range 1-2,5-10

 # 解析加密 PDF
xparse-cli parse secret.pdf --password mypassword

 # 獲取字符級坐標和置信度（做人工核驗時用）
xparse-cli parse report.pdf --view json --include-char-details --output ./parsed.json

值得注意的是，CLI默認已經開啟了一套完整的解析能力，不需要額外配置：

能力

標題層級

自動識別文檔結構，最多 5 級標題

表格結構

HTML 格式保留單元格層級

圖片提取

內嵌圖片識別和提取

目錄樹

自動生成文檔 TOC

分頁結果

頁面級元數據

唯一需要手動開啟的是--include-char-details（字符坐標），因為這個會大幅增加返回數據量，按需開啟

幾個實用進階玩法

① 管道組合，直接喂給 LLM

# 解析后搜索關鍵詞
xparse-cli parse report.pdf | grep "revenue"


 # 解析完直接喂給 LLM 總結
xparse-cli parse paper.pdf | llm "summarize this paper"

② 批量處理

# 準備一個文件列表 files.txt，一行一個路徑
xparse-cli parse --list files.txt --output ./results/

③ 從解析結果里下載圖片

# 先解析為 JSON
xparse-cli parse report.pdf --view json --output result.json


 # 再從 JSON 里批量下載所有圖片
xparse-cli download --from result.json --output ./images/

④ 私有化部署

如果是私有部署的 TextIn 服務，可以通過--base-url指定：

xparse-cli parse report.pdf --base-url https://your-private-server.com

總結

xparse-parse Skill 這個組合，我覺得把文檔解析這件事做到了目前最低門檻的狀態：

適合你用的場景：

用 Agent 做個人知識管理，原料里有大量 PDF/Word/PPT
搭建 RAG 知識庫，需要高精度的文檔結構化
日常工作要解析合同、財報、研報這類復雜文檔

優缺點直說：

評價

? 零代碼零門檻

說話就能用，適合所有技術水平

? 復雜表格能力強

跨頁拼接、合并單元格、無線表格都不虛

? 免費額度夠用

PDF+ 圖片 1000 頁/天，輕度使用完全夠

? 管道/批量支持

可與 LLM、腳本組合，適合自動化流水線

?? Word/PPT/Excel 需付費

免費版只有 PDF 和圖片

?? 免費版 10MB 限制

大型 PDF 需要付費賬戶

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.