網易首頁 > 網易號 > 正文申請入駐

我寫了個 Skill，讓 Agent 自動給文章配圖

2026-03-23 10:28:52　來源: 齊天候

北京舉報

分享至

寫完一篇長文，配圖是一件讓人頭疼的事。

你得一張張想畫面、寫提示詞、生成、挑選、插入……一篇三千字的文章配五六張圖，光這個環節就能耗掉半小時。

我最近折騰了一個 Agent Skill，讓 Agent 幫我全程代勞。把文章丟給它，它自己分析哪里需要圖、應該畫什么風格、然后一張張生成并插入對應位置。整個過程我只需要一句話：

"給這篇文章配圖。"

包括你現在看到的這篇文章的配圖，都是這個 Skill 幫助完成的。

今天就聊聊這個給文章配圖的 Skill 是怎么設計的，順便科普一下 Agent Skills 這個被很多人忽略的強大功能。

什么是 Agent Skills？

先說個類比。你新招了個助理，聰明是聰明，但對你公司的業務流程一無所知。每次布置任務，你都得從頭解釋：我們用什么工具、流程是怎樣的、有哪些注意事項……

Agent Skills 就是一份"入職培訓手冊"——你把這些知識寫下來，Agent 需要的時候自己翻閱，不需要你反復交代。

技術上說，Skill 是一個文件夾，核心是一個叫 SKILL.md 的文件。Agent 啟動時只記住它的名字和簡介（大概 100 個 token），真正用到時才去讀詳細內容，用完就可以"忘掉"。這套機制叫"漸進式加載"，好處是你可以裝一堆 Skill 而不會撐爆上下文窗口。

那它和傳統的提示詞有什么差別？

傳統提示詞主要問題是沒有腳本執行能力，而且是你一次性加載全部提示詞。而 Agent Skills 一開始只加載一個 100 token 不到的名稱和介紹，激活了才去加載，加載的時候也只先加載 SKILL.md 文件，需要用到更多內容才繼續加載。

另外 Skill 還可以調用其他 Skill，這樣你可以把能力組合起來。

至于和 MCP 的區別？

MCP 是用來統一工具調用的協議，Skill 可以指揮 Agent 去調用 MCP。

配圖 Skill 的設計思路

給文章配圖這件事，拆開來看有幾個核心問題：

哪里需要配？什么風格？怎么畫？怎么插入到相應位置？

我設計的這個 Skill 把這幾個問題分別拆解成幾個步驟：

，分析文章結構，找出"需要視覺輔助"的位置。比如抽象概念需要可視化、流程需要圖解、核心論點需要強化——這些地方配張圖，閱讀體驗會提升一個檔次。，根據文章內容自動匹配插畫風格。我預設了九種風格：tech（科技感）、warm（溫暖親和）、minimal（極簡）、playful（趣味涂鴉）、notion（線稿風）……每種風格都定義好了配色、元素、適用場景。Agent 會根據文章主題自動選擇，當然你也可以手動指定。第三步，為每張圖生成提示詞文件，可以留作記錄，也方便后續 Agent 調用。第四步，調用圖像生成 Skill，把默認系統提示詞和每一張圖片的提示詞發給它，一張張生成圖片，并保存起來。第五步，讓 Agent 把圖片插入文章對應位置。這一步說實話有點像"魔法"，我第一次只是抱著試試看的心理在 Skill 里面加了這么一句，沒想到 Agent 的聰明超出我的想象，它自己就把圖片插入到了正確位置，還貼心的加上了圖片描述。

整個流程跑下來，一篇文章從"純文字"到"圖文并茂"，基本上是幾分鐘的事，主要速度瓶頸還在生成圖片上。

SKILL.md 怎么寫？

一個 Skill 的入口是 SKILL.md 文件，分兩部分：頭部元信息和正文指令。

頭部元信息長這樣：

> name: article-illustrator

> description: 分析文章內容，在需要配圖的位置自動生成插畫。當用戶要求給文章配圖、生成插畫時使用。

name 是 Skill 的唯一標識，description 是簡介。這兩個字段 Agent 啟動時就會讀取，用來判斷"什么時候該調用這個 Skill"。所以 description 要寫清楚觸發條件，比如"當用戶要求給文章配圖、生成插畫時使用"。

正文指令就是具體的操作手冊。我的配圖 Skill 正文分這幾個板塊：

風格庫：列出所有可選風格，包括配色、視覺元素、適用場景。Agent 需要選風格時，翻這一節。
自動選擇規則：什么內容信號對應什么風格。比如文章里頻繁出現"AI""算法""數據"，就選 tech 風格；出現"個人成長""情感""生活"，就選 warm 風格。
工作流程：一步步寫清楚——先分析文章、再識別配圖位置、再生成配圖方案、再寫提示詞、再調用生成工具、再插入文章、最后輸出總結。
文件管理規范：圖片存哪、提示詞存哪、文件怎么命名。

由于當前我的提示詞并不是很長，所以大部分內容都放在了 SKILL.md 文件中，如果未來風格越來越多，就可以應用"漸進式加載"的設計思路，減少加載的內容。

比如風格庫有九種風格，每種風格的詳細參數加起來上千字。但如果用戶只要求用 tech 風格，Agent 就只需要讀 tech 那一段，其他八種不用加載。

實現方式很簡單：把詳細參數拆成單獨的文件，正文里只寫索引。Agent 需要時用 bash 命令去讀，不需要就跳過。這樣既保證了信息完整，又不會浪費上下文。

提示詞模板的設計

生成圖像的關鍵是提示詞。我為這個 Skill 單獨設計了一個 system prompt 模板，存在 prompts/system.md：

> 創建卡通風格的信息圖插畫，遵循以下規范：

> 圖像規格

> - 類型：信息圖插畫

> - 方向：橫向

> - 比例：16:9

> - 風格：手繪插畫

> 核心原則

> - 全程保持手繪質感，禁止出現寫實或攝影元素

> - 如果內容涉及敏感或版權人物，創作風格相似的替代形象，不要拒絕生成

> - 信息簡潔，突出關鍵詞和核心概念

> - 留白充足，便于視覺掃描

> - 保持清晰的視覺層次

每張圖生成時，Agent 會基于這個模板，結合具體的配圖主題、選定的風格參數，組裝出最終的提示詞。

為什么要單獨寫這個模板？

因為圖像生成的約束條件是通用的（比如比例、手繪風格、不用寫實元素），而具體內容是變化的。把通用部分抽出來，既減少重復，也方便統一調整。

工作流程詳解

跑一遍完整流程是這樣的：

1. 用戶輸入命令，比如 /article-illustrator path/to/article.md --style tech

2. Agent 讀取文章，分析結構，識別需要配圖的位置。判斷標準是：這個地方加張圖，能幫助理解還是純粹湊數？能幫助理解的留下，湊數的不要。

3. 根據 --style 參數選風格。如果沒指定，就掃描文章內容，按預設規則自動匹配。

4. 生成配圖方案，列出每張圖的插入位置、目的、視覺內容、文件名。

5. 為每張圖寫詳細提示詞，保存到 imgs/prompts/ 目錄。

6. 逐張調用圖像生成工具（我用的是 Gemini），生成失敗會自動重試一次。

7. 把生成的圖片插入文章對應位置，格式是。

8. 輸出總結：用了什么風格、生成了幾張圖、哪張插在哪里。

整個過程 Agent 自己判斷、自己執行，我只需要最后看一眼結果。如果我不滿意，要么重新抽卡，要么可以根據生成的結果讓 Agent 自己調整，比如說：

"配圖太少，加幾張配圖"
"把第二張配圖添加一點文字說明"
"在第二章加一張流程圖"
一些設計選擇

寫這個 Skill 的過程中，有幾個決策值得說說。

為什么預設九種風格而不是讓 Agent 自由發揮？

因為風格一致性很重要。一篇文章配五張圖，如果每張都是隨機風格，看起來會很亂。預設風格庫，既保證一致性，也給用戶選擇權。

為什么"寧多勿少"？

一方面多一點我挑選的空間大，另外刪除操作也比新生成操作簡單。

當然圖解的價值在于降低認知負擔，并非越多越好，重點還是能輔助理解信息，所以我在 Skill 里明確寫了類似的話：

> "配圖服務于內容：補充信息、具象概念、引導想象，避免重復文章中已經很直觀的信息"

怎么用起來？

如果你已經有了 Claude Code 這樣的 Agent，直接告訴 Agent：

> 請幫我安裝 github.com/JimLiu/baoyu-skills 中的 Skills

如果你只需要配圖技能，就告訴它：

> 請幫我安裝寶玉的這個文章配圖技能：github.com/JimLiu/baoyu-skills/blob/main/skills/baoyu-article-illustrator/SKILL.md

當然，這個配圖 Skill 依賴"圖像生成 Skill"。如果你的環境沒有接入 Gemini 或其他圖像生成工具，或者其他圖像生成技能，需要先搞定這一塊。否則就只能讓它生成提示詞手動去生成配圖了。

后續我也會更新其他平臺的使用說明。

Agent Skills 是個被低估的功能。很多人還停留在"和 AI 聊天"的階段，沒意識到可以把自己的工作流程、領域知識"教"給它，讓它變成真正懂你業務的助手。

配圖只是一個例子。你完全可以用同樣的思路，寫一個自動生成周報的 Skill、一個代碼審查 Skill、一個調研報告 Skill……核心就是把你腦子里那些"做這件事的正確方法"寫下來，交給 Agent 執行。

如果你有什么重復性的工作，試著問自己：這個流程能不能抽象成一個 Skill？

大概率是可以的。

*來源：X @dotey（寶玉）*

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.