知識管理缺了一塊拼圖
前段時間我在一文中介紹了 Karpathy 的知識管理方法——把各種原始素材統統丟進raw/目錄,用 Obsidian Web Clipper 一鍵裁剪網頁,配合 LLM 慢慢「編譯」成結構化 wiki
這個思路是對的,先不管三七二十一,把所有原始材料攢在一起。但問題來了:實際工作中,原始材料可不只是網頁和 Markdown
合同、財報、研報是 PDF、內部培訓材料是 PPT、數據是 Excel,各種文檔是 Word……這些東西直接扔給大模型,輕則格式一塌糊涂,重則整個表格都消失了,跨頁的更是截成碎片。做過 RAG 的都知道,解析是第一道關,解析不好,后面再聰明也白搭——垃圾進,垃圾出
OCR、文檔解析相關我寫過 N 多篇:DeepSeek-OCR、HunyuanOCR、PaddleOCR、GLM-OCR、MinerU 等,橫向對比了以上開源方案,從落地層面我最推薦的可能還是一文中我實測過的TextIn xParse,實力我就不單獨摘過來了,總之很強!
現在 xparse-parse 的 Skills 發布了,試用之后感覺:這才是最省心的方式
先說大家最關心的格式支持問題,再細說安裝的事兒
格式支持
TextIn xParse 屬于商業工具,但這次的skill提供了每日1000頁的額度,個人使用完全足夠
格式支持:PDF+圖片(
JPG/PNG/BMP/TIFF/WebP),≤10MB,每日1000頁,1次/秒配置憑證后:
https://cc.co/16YSe8(注冊后獲取APP ID和Secret Code),全格式解鎖Word、Excel、PPT、HTML、OFD、RTF等20+格式,單文件≤500MB,無每日頁數上限
Skills 地址:github.com/intsig-textin/xparse-skills
核心是兩樣東西:
SKILL.md——告訴 Agent 什么時候觸發文檔解析、怎么路由
xparse-cli——Go 編寫的跨平臺二進制工具,底層調用 TextIn xParser API
整個工作流如下圖:
![]()
用戶說一句話 → Agent 自動識別是文檔任務 → 觸發 xparse-parse Skill → 調用 xparse-cli → 根據有無憑證自動走免費/付費 API → 返回 Markdown 或 JSON。
全程你不用寫一行代碼,甚至不用知道 xparse-cli 怎么用
安裝方式
方式一:對話框一句話安裝
在 Agent 對話框直接說:
幫我從技能市場安裝 intsig-textin/xparse-parser
方式二:npx 命令安裝(強烈推薦)
npx skills add intsig-textin/xparse-skills
我最推薦這種方式,比較優雅
![]()
而且還可以一鍵安裝到所有 Agent 工具中
![]()
憑證配置只要一條命令:
xparse-cli auth
按提示輸入 App ID 和 Secret Code,保存到~/.xparse-cli/config.yaml,后續自動讀取
也支持環境變量方式(適合 CI/CD):
export XPARSE_APP_ID=your_app_id
export XPARSE_SECRET_CODE=your_secret_code
用法在 OpenClaw、Claude Code 等 Agent 平臺安裝 xparse-parser Skill 后,只需自然語言指令即可完成解析全流程
例如:
“幫我讀一下這份PDF合同,提取關鍵條款”
“把這個報告轉成Markdown,保存到桌面”
“這份加密PDF密碼是123456,幫我解析前10頁”
“提取這張表格圖片里的內容,輸出JSON”
這里大家了解就行了,其實配置好 Skills之后,完全不需要記住這些
# 最基礎:解析 PDF,輸出 Markdown 到終端
xparse-cli parse report.pdf
# 輸出結構化 JSON
xparse-cli parse report.pdf --view json
# 保存到目錄(自動命名為 report.md / report.json)
xparse-cli parse report.pdf --output ./result/
# 保存到指定文件
xparse-cli parse report.pdf --output parsed.md
# 只解析指定頁碼范圍(支持多段)
xparse-cli parse report.pdf --page-range 1-5
xparse-cli parse report.pdf --page-range 1-2,5-10
# 解析加密 PDF
xparse-cli parse secret.pdf --password mypassword# 獲取字符級坐標和置信度(做人工核驗時用)
xparse-cli parse report.pdf --view json --include-char-details --output ./parsed.json
值得注意的是,CLI默認已經開啟了一套完整的解析能力,不需要額外配置:
能力
標題層級
自動識別文檔結構,最多 5 級標題
表格結構
HTML 格式保留單元格層級
圖片提取
內嵌圖片識別和提取
目錄樹
自動生成文檔 TOC
分頁結果
頁面級元數據
唯一需要手動開啟的是--include-char-details(字符坐標),因為這個會大幅增加返回數據量,按需開啟
幾個實用進階玩法
① 管道組合,直接喂給 LLM
# 解析后搜索關鍵詞
xparse-cli parse report.pdf | grep "revenue"# 解析完直接喂給 LLM 總結
xparse-cli parse paper.pdf | llm "summarize this paper"
② 批量處理
# 準備一個文件列表 files.txt,一行一個路徑
xparse-cli parse --list files.txt --output ./results/
③ 從解析結果里下載圖片
# 先解析為 JSON
xparse-cli parse report.pdf --view json --output result.json# 再從 JSON 里批量下載所有圖片
xparse-cli download --from result.json --output ./images/
④ 私有化部署
如果是私有部署的 TextIn 服務,可以通過--base-url指定:
xparse-cli parse report.pdf --base-url https://your-private-server.com
總結xparse-parse Skill 這個組合,我覺得把文檔解析這件事做到了目前最低門檻的狀態:
適合你用的場景:
用 Agent 做個人知識管理,原料里有大量 PDF/Word/PPT
搭建 RAG 知識庫,需要高精度的文檔結構化
日常工作要解析合同、財報、研報這類復雜文檔
優缺點直說:
評價
? 零代碼零門檻
說話就能用,適合所有技術水平
? 復雜表格能力強
跨頁拼接、合并單元格、無線表格都不虛
? 免費額度夠用
PDF+ 圖片 1000 頁/天,輕度使用完全夠
? 管道/批量支持
可與 LLM、腳本組合,適合自動化流水線
?? Word/PPT/Excel 需付費
免費版只有 PDF 和圖片
?? 免費版 10MB 限制
大型 PDF 需要付費賬戶
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.