網易首頁 > 網易號 > 正文申請入駐

SkillsBench：斯坦福大學等機構揭秘AI代理"技能包"的真實威力

2026-02-25 20:40:24　來源: 科技行者

北京舉報

分享至

這項由斯坦福大學、加州大學伯克利分校、俄亥俄州立大學等多所知名院校聯合開展的研究發表于2026年2月，論文編號為arXiv:2602.12670v1。有興趣深入了解的讀者可以通過這個編號查詢完整論文。

在當今AI快速發展的時代，你可能聽說過ChatGPT、Claude這些聊天機器人，但你知道它們正在進化成能夠自主完成復雜任務的"AI代理"嗎？這些AI代理不再僅僅是回答問題，而是能夠像人類助手一樣，操作電腦、編寫代碼、分析數據，甚至制作報告。然而，就像一個剛入職的新員工需要培訓手冊一樣，AI代理也需要專門的"技能包"來指導它們完成特定領域的工作。

但這些"技能包"真的有用嗎？它們到底能讓AI代理變得多厲害？這正是這項大規模研究想要回答的問題。研究團隊就像是在測試不同品牌的工具箱對工匠工作效率的影響，他們設計了一個名為SkillsBench的評測體系，涵蓋了84個不同難度的真實任務，從簡單的數據分析到復雜的軟件開發，從醫療保健到金融分析，幾乎涉及了現代職場的各個角落。

這項研究的特別之處在于，它不是簡單地測試AI代理能否完成任務，而是專門比較了三種不同情況下的表現：完全沒有技能包的"裸奔"狀態、使用專家精心編寫的技能包，以及讓AI代理自己臨時編寫技能包。研究團隊測試了7種不同的AI模型-代理組合，總共進行了7,308次任務嘗試，這個規模相當于一個小型企業一年的工作量評估。

結果令人眼前一亮，但也帶來了一些意外發現。專家編寫的技能包平均讓AI代理的成功率提升了16.2個百分點，這就像是給一個工匠配備了專業工具箱后，工作效率顯著提升。然而，不同領域的效果差異巨大：在醫療保健領域，成功率提升了驚人的51.9個百分點，而在軟件工程領域，提升幅度只有4.5個百分點。更有趣的是，當AI代理試圖自己編寫技能包時，不僅沒有幫助，反而平均降低了1.3個百分點的成功率，這說明AI雖然聰明，但還無法可靠地為自己制作"使用手冊"。

一、技能包的本質：AI代理的專業培訓手冊

回到最基本的問題：什么是AI代理的"技能包"？如果把AI代理比作一個萬能的實習生，那么技能包就像是針對特定崗位的培訓手冊。這個手冊不是簡單的知識介紹，而是詳細的操作指南，告訴AI代理"在這種情況下應該怎么做"、"使用哪些工具"、"按什么步驟執行"。

技能包的核心是程序性知識，也就是"如何做"的知識，而不是"是什么"的知識。就像烹飪食譜一樣，它不會花大篇幅解釋什么是面粉或雞蛋，而是直接告訴你"先在碗里打兩個雞蛋，然后加入200克面粉，順時針攪拌五分鐘"。這種具體的步驟指導正是AI代理最需要的。

研究團隊發現，一個合格的技能包必須滿足四個條件。第一是包含程序性內容，也就是具體的操作步驟和工作流程，而不是純粹的事實性信息。第二是具有任務類別適用性，能夠應用于一類問題而不僅僅是單個任務。第三是結構化組件，包含一個名為SKILL.md的核心文件以及可選的腳本、模板和示例。第四是便攜性，技能包完全基于文件系統，容易編輯、版本控制、分享，并能在不同的代理系統中使用。

這種定義排除了許多看似相關但實際不同的概念。系統提示詞雖然能指導AI行為，但缺乏結構和資源；少樣本示例雖然有用，但是聲明性的而非程序性的；檢索增強生成主要提供事實信息而非操作指導；工具文檔描述的是功能而非具體使用步驟。技能包的獨特之處在于它將程序性指導與可執行資源結合，同時保持跨模型和跨代理系統的兼容性。

在實際應用中，每個技能包就像一個迷你的專業培訓課程。它位于環境的skills目錄中，包含必需的SKILL.md文件和可選的資源文件。SKILL.md文件用自然語言描述如何處理某類任務的具體方法，比如工作流程、標準操作程序或領域規范。資源文件則可能包含可執行腳本、代碼模板、參考文檔或實際工作示例，供代理在需要時調用或參考。

二、實驗設計：像測試新員工一樣評估AI代理

為了科學地評估技能包的效果，研究團隊設計了一套完整的評測體系，就像企業HR部門設計員工能力測試一樣周密。他們首先面臨的挑戰是如何收集足夠多樣化的任務。研究團隊采用了社區驅動的開源貢獻模式，邀請了105名來自學術界和工業界的貢獻者提交候選任務，最終收到了322個任務提案。

這些任務的篩選過程非常嚴格，就像招聘過程一樣有多個環節。每個提交的任務都必須滿足明確的要求：任務說明必須由人類編寫而非AI生成，技能包必須提供適用于一類問題的程序性指導，成功標準必須可以通過程序化斷言進行測試。系統會自動進行結構驗證、預言解決方案執行和指令質量檢查，通過后才進入人工審核階段。

人工審核階段評估五個關鍵標準：數據有效性要求輸入數據反映真實世界的復雜性，拒絕合成或玩具數據；任務現實性要求場景反映真實的專業工作流程，避免人為的困難；預言質量要求參考解決方案應該匹配領域專家解決任務的方式；技能質量要求技能包必須無錯誤、內部一致且對類似任務真正有用；防作弊措施要求任務必須防止快捷解決方案，如編輯輸入數據或從測試文件中提取答案。

審核者還會使用有技能包和無技能包兩種條件在多個代理上運行基準實驗，以確認每個任務都能提供關于技能包效果的有意義信號。經過這個嚴格的篩選過程，最終有86個任務通過了所有審核階段并被納入基準測試，其中84個任務參與了最終評估。

這84個任務覆蓋了11個不同的領域，從軟件工程到醫療保健，從金融分析到機器人控制。任務難度按照估計的人類完成時間進行分層：核心任務（17個）需要少于60分鐘，擴展任務（43個）需要1-4小時，極端任務（26個）需要超過4小時。這種分層確保了基準測試能夠評估不同復雜程度的任務。

三、測試對象：七種AI代理的全面比拼

研究團隊選擇了當前最先進的三種商業代理系統進行測試，這些系統代表了不同公司在AI代理領域的最新成果。Claude Code來自Anthropic公司，具有原生的技能包集成能力；Gemini CLI來自Google，是開源的終端代理；Codex CLI來自OpenAI，是輕量級的編程代理。這些代理系統與不同的語言模型配對，形成了七種不同的配置組合。

Claude Code系統測試了四種不同能力級別的Claude模型：Opus 4.5和4.6代表頂級能力，Sonnet 4.5提供平衡的性能，Haiku 4.5則是效率優化版本。Gemini CLI測試了兩種Google模型：Gemini 3 Pro提供強大性能，Gemini 3 Flash則優化了速度和成本效率。Codex CLI使用GPT-5.2模型，專門針對代碼生成進行了優化。

每個任務都在三種不同的條件下進行測試，就像對比實驗一樣控制變量。無技能包條件下，代理只接收任務說明，環境中沒有任何技能包；有技能包條件下，完整的技能包目錄提供所有示例、代碼片段和資源；自生成技能包條件下，不提供預制技能包，但提示代理在解決任務前生成相關的程序性知識。

實驗的執行過程嚴格控制了各種變量。所有模型都使用溫度0進行確定性采樣，超時限制根據任務難度在600到1200秒之間變化，上下文管理采用8000令牌限制的滑動窗口。每個條件下的主要測試進行5次試驗，自生成條件進行3次試驗，總計產生了7,308個有效軌跡供分析。

技能包通過將環境的skills目錄復制到代理特定路徑的方式注入到每個任務的Docker容器中。每個代理系統使用其原生的技能包發現機制在運行時發現和加載技能包。重要的是，任務說明從不引用要使用哪些技能包，代理必須自主發現并應用它們。

四、驚人發現：技能包效果的巨大差異

研究結果揭示了技能包效果的復雜圖景。整體而言，精心策劃的技能包將代理的平均通過率提升了16.2個百分點，這相當于將成功率從約24%提升到約41%。然而，這個平均數字掩蓋了巨大的變異性，就像平均工資數字無法反映不同行業之間的巨大差距一樣。

不同代理-模型配置的效果差異顯著，改進幅度從13.6個百分點到23.3個百分點不等。Gemini CLI配合Gemini 3 Flash實現了最高的絕對通過率48.7%，而Claude Code配合Opus 4.5顯示了最大的改進幅度，增長了23.3個百分點。有趣的是，Claude Code在各個模型上都表現出了持續的技能包利用能力，這可能與其原生的技能包集成優化有關。

領域層面的差異更加戲劇性。醫療保健領域顯示了最大的改進，技能包將通過率從34.2%提升到86.1%，凈增長51.9個百分點。制造業緊隨其后，從1.0%提升到42.9%，增長41.9個百分點。這些領域的巨大改進反映了它們需要專門的程序性知識，而這些知識在模型的預訓練中代表性不足。

相比之下，數學領域的改進相對較小，從41.3%提升到47.3%，僅增長6.0個百分點。軟件工程顯示了最小的改進，從34.4%提升到38.9%，僅增長4.5個百分點。這種模式表明，在模型預訓練覆蓋較好的領域，外部程序性指導的邊際效用較低。

任務級別的分析揭示了更多細節。表現最好的任務如mario-coin-counting和sales-pivot-analysis顯示了超過85個百分點的改進，從接近0%的基線躍升到接近90%的成功率。這些任務涉及需要特定程序性知識的專門操作，如Excel透視表API或圖像處理管道，這些知識很難從一般訓練中獲得。

然而，并非所有任務都從技能包中受益。84個任務中有16個顯示了負面的技能包增量，最大的負面影響是taxonomy-tree-merge任務，下降了39.3個百分點。這些失敗表明技能包可能引入沖突的指導或為模型已經能夠很好處理的任務增加不必要的復雜性。

五、自生成技能包的失?。篈I還無法為自己編寫手冊

研究中最令人意外的發現之一是自生成技能包的表現。當提示代理在解決任務之前生成自己的程序性知識時，它們平均顯示了-1.3個百分點的性能下降，這與精心策劃的技能包的+16.2個百分點改進形成鮮明對比。

這種失敗模式在軌跡分析中得到了解釋。研究團隊發現了兩種主要的失敗模式。第一種是模型識別需要領域特定知識，但生成的程序不精確或不完整。例如，模型可能列出"使用pandas進行數據處理"而不提供具體的API模式或處理步驟。第二種失敗模式出現在高領域知識任務中，模型完全無法識別需要專門技能包的需求，而是嘗試使用通用方法解決問題。

只有Claude Opus 4.6顯示了適度的改進（+1.4個百分點），而Codex配合GPT-5.2顯示了實質性的退化（-5.6個百分點）。這種模式表明，雖然模型在消費程序性知識方面表現出色，但在創作有效的程序性知識方面仍有很大差距。

自生成條件的失敗凸顯了精心策劃的技能包的價值。有效的技能包不僅包含正確的信息，還以代理能夠有效處理和應用的方式進行結構化。這需要對任務領域的深度理解，以及對代理能力和限制的洞察，這些通常超出了當前語言模型的能力范圍。

這一發現對技能包生態系統具有重要意義。它表明，至少在當前的技術水平下，人工策劃的技能包仍然是必要的。自動化技能包生成可能需要更先進的方法，可能結合領域專業知識、任務特定的示例以及對代理行為的更深入理解。

六、設計原則：少即是多的技能包哲學

研究深入分析了技能包設計對效果的影響，得出了幾個重要的設計原則。首先是數量的影響。分析顯示，包含2-3個技能包的任務表現最佳，平均改進18.6個百分點，而包含4個或更多技能包的任務僅改進5.9個百分點。這種非單調關系表明過多的技能包內容會產生認知開銷或沖突指導。

技能包復雜性的分析同樣有啟發性。研究團隊根據內容長度和深度將技能包分類為詳細、緊湊、標準和全面四種類型。詳細技能包（+18.8個百分點）和緊湊技能包（+17.1個百分點）提供了最大的效益，而全面技能包實際上損害了性能（-2.9個百分點）。這表明聚焦的程序性指導比詳盡的文檔更有效，代理可能難以從冗長的技能包內容中提取相關信息。

模型規模效應揭示了技能包的另一個重要價值主張。Claude Haiku 4.5配合技能包（27.7%）超過了Haiku無技能包（11.0%）的性能16.7個百分點，同時Claude Opus 4.5無技能包僅達到22.0%。這證明技能包可以部分補償模型能力限制，使較小的模型在程序性任務上與較大的模型相匹配。

這些發現對技能包創作實踐具有直接影響。有效的技能包應該優先考慮簡潔的、逐步的指導，包含至少一個工作示例，而避免詳盡的文檔。模塊化技能包似乎在多部分任務上組合得更好，技能包應該明確匹配代理約束，例如為僅限JSON協議重復格式提醒。

七、代理系統的可靠性差異

研究還揭示了不同商業代理系統在技能包利用方面的顯著差異。Claude Code在所有Claude模型中顯示了一致的技能包效益，改進范圍從13.9個百分點（Opus 4.6）到23.3個百分點（Opus 4.5）。這種一致性可能反映了Claude Code為Agent Skills規范進行的原生技能包集成優化。

Gemini CLI實現了最高的原始性能，Gemini 3 Flash配合技能包達到48.7%的通過率，但標準化增益相對較低。改進范圍從13.6個百分點到17.4個百分點。軌跡分析顯示Gemini CLI代理可靠地檢索和使用技能包內容，但有時會執行獨立于提供指導的解決方案。

Codex CLI顯示了競爭性的原始性能，技能包配置達到44.7%，但經常忽略提供的技能包。代理承認技能包內容但經常獨立實施解決方案，這表明技能包發現和應用之間存在斷裂。這種模式強調了評估多個代理系統而不是將"配合技能包"視為單一條件的重要性。

這些系統間的差異突出了代理架構在調解技能包使用中的關鍵作用。技能包效果不僅取決于技能包質量，還取決于代理系統如何實施技能包發現、上下文管理和應用策略。一些系統引入的結構化接口也可能導致長軌跡失敗模式，如格式漂移，減少早期注入技能包的影響。

八、成功案例分析：技能包如何改變游戲規則

為了更深入地理解技能包的作用機制，研究團隊分析了幾個代表性的成功案例，這些案例展示了技能包如何將失敗轉化為成功。

sales-pivot-analysis任務為技能包如何彌合特定API差距提供了完美示例。在沒有技能包的情況下，所有7個模型都獲得了0%的分數。這個任務需要從人口和收入數據以程序方式創建Excel透視表。代理始終正確加載數據，但在透視表創建時失敗。Codex嘗試手動DataFrame重塑而不是使用openpyxl的透視表API，產生結構錯誤的輸出，23個測試中有10個因缺少透視對象而失敗，出現"列表索引超出范圍"錯誤。配合提供openpyxl透視表工作流程逐步指導的技能包，7個模型中的6個達到了≥80%的通過率，平均改進+85.7個百分點。

flood-risk-analysis任務展示了技能包如何提供關鍵的數據處理管道。這個任務需要使用回歸周期估計從USGS流量數據識別洪水風險站點。沒有技能包時，代理嘗試臨時統計方法，如簡單的基于閾值的檢測或不正確的分布擬合，僅獲得2.9%的通過率。策劃的技能包指定了Log-Pearson Type III分布，這是洪水頻率分析的標準USGS方法，包括確切的scipy函數調用和參數解釋。配合技能包，通過率上升到80.0%（+77.1個百分點），所有模型都正確應用了USGS標準方法。

sec-financial-report任務說明了技能包如何編碼監管知識。從SEC 13F文件分析對沖基金活動需要理解特定的監管格式、CIK查找程序和文件比較方法。沒有技能包時，沒有模型能夠完成任務（0%通過率），代理要么未能找到正確的文件，要么誤解了表格數據格式。策劃的技能包記錄了SEC EDGAR API端點、13F-HR文件結構和跨季度比較方法。配合技能包，通過率達到75.0%（+75.0個百分點）。

manufacturing-fjsp-optimization任務展示了技能包如何防止常見的實施陷阱。靈活作業車間調度問題需要具有機器停機時間窗口的約束感知優化。沒有技能包時，代理產生了忽略維護約束的簡單調度（0%通過率）。策劃的技能包概述了約束傳播方法、目標函數公式和OR-Tools求解器配置。配合技能包，代理成功制定并解決了優化問題（68.6%通過率，+68.6個百分點）。

這些案例展示了技能包最有效的三個場景：彌合特定API或工具知識差距，提供領域特定的方法和標準，以及指導復雜的多步驟工作流程。在每種情況下，技能包不僅提供信息，還提供可操作的程序性指導，代理可以直接遵循。

九、失敗模式分析：當技能包反而幫倒忙

盡管技能包總體上提高了性能，但研究也發現了它們可能有害的情況。對5,171個代理失敗的綜合分析揭示了技能包如何改變失敗模式的分布。

最常見的失敗模式是"質量低于閾值"（49.8%的失?。@表明代理通常理解任務結構并產生輸出，但他們的解決方案不夠準確。代理超時是第二常見的（17.8%），其次是不完整解決方案（10.2%）和無輸出產生（7.9%）。

比較無技能包和有技能包條件下的失敗模式分布揭示了技能包的主要影響在哪里。技能包主要減少驗證失敗，質量低于閾值失敗的絕對數量從1,184個（無技能包）下降到819個（有技能包），減少30.8%。這占了改進的大部分：技能包提供領域特定指導，幫助代理在結構上理解的任務上產生更高質量的輸出。

然而，技能包略微增加了超時的相對份額。雖然絕對超時計數從367個減少到328個，但其在失敗中的份額從16.1%增加到18.6%。這是因為技能包減少簡單失敗的速度快于困難失敗，以前產生低質量輸出的代理現在花更長時間追求更好的解決方案，有時超過時間限制。

一些具體的失敗案例說明了技能包何時會產生反效果。taxonomy-tree-merge任務顯示了-39.3個百分點的下降，這是最大的負面影響。在這種情況下，技能包可能引入了與代理已經有效方法沖突的指導。energy-ac-optimal-power-flow顯示了-14.3個百分點的下降，表明對于模型已經有強先驗的任務，技能包可能增加不必要的復雜性。

這些失敗模式強調了技能包設計和選擇的重要性。并非所有任務都能從外部指導中受益，特別是那些模型已經表現良好的任務。技能包也可能引入自己的復雜性和潛在錯誤，特別是當它們與代理的現有知識或偏好沖突時。

十、成本效益分析：技能包的經濟價值

研究還分析了技能包使用的令牌使用和成本影響。令牌使用數據顯示，技能包將輸入令牌使用增加6-13%，這反映了技能包文檔的額外上下文。然而，每次試驗的成本增加是適度的，從每次試驗增加$0.03（Gemini 3 Flash）到$0.22（GPT-5.2）。

有趣的是，Gemini 3 Pro在配合技能包時顯示了令牌使用的輕微減少（-6%），表明技能包幫助Pro更有效地解決任務，減少探索輪次。這種模式在高級模型中可能更常見，它們能夠更有效地利用提供的指導。

成本-性能權衡分析顯示技能包將成本-性能前沿向上移動。Gemini 3 Flash每任務消耗的輸入令牌比Gemini 3 Pro多2.3倍（配合技能包時1.08M對0.47M），這是一種補償策略，較小模型用迭代探索替代推理深度。在標準API定價下，Flash的4倍更低每令牌成本超過了較高令牌量，使Flash每任務便宜44%（$0.55對$0.98）。

緩存效率分析顯示所有模型都有高緩存命中率：GPT-5.2為91-92%，Gemini 3 Pro為75-76%，Gemini 3 Flash為63-67%。Claude Code模型顯示>99%的緩存率，反映了積極的提示緩存。在實踐中，緩存定價將實際成本降低到表中顯示的標準費率的50-90%。

這些發現表明，雖然技能包確實增加了計算成本，但性能改進（平均+16.2個百分點）大大超過了邊際成本增加。對于大多數應用，技能包代表了一個有吸引力的成本-效益權衡。

說到底，這項研究為我們揭示了AI代理技能包的真實面貌。就像給工匠配備專業工具箱一樣，精心設計的技能包確實能顯著提升AI代理的工作能力，平均提升16.2個百分點的成功率。但這種提升并不是萬能的靈丹妙藥，不同領域、不同任務、不同代理系統的效果差異巨大。更重要的是，AI代理目前還無法為自己可靠地編寫有效的"使用手冊"，人工精心編寫的技能包仍然是必需品。

這項研究的價值不僅在于證明了技能包的有效性，更在于揭示了其局限性和設計原則。"少即是多"的哲學、聚焦而非全面的指導、適量而非過多的技能包數量，這些都是實用的指導原則。同時，研究也提醒我們，不是所有任務都需要技能包，有時候過多的指導反而會幫倒忙。

歸根結底，這項研究為AI代理技能包的發展指明了方向：精心策劃的人工技能包在當前技術水平下仍然不可替代，但隨著技術進步，自動化技能包生成和更智能的技能包應用可能會成為現實。對于普通用戶而言，這意味著在選擇和使用AI代理工具時，了解其技能包支持情況將成為一個重要考慮因素。這項研究為整個行業提供了寶貴的實證基礎，有興趣的讀者可以通過論文編號arXiv:2602.12670v1查詢完整研究內容。

Q&A

Q1：什么是AI代理的技能包？

A：AI代理的技能包就像是專門的培訓手冊，它不是簡單的知識介紹，而是詳細的操作指南，告訴AI代理在特定情況下應該怎么做、使用哪些工具、按什么步驟執行。比如在處理Excel數據時，技能包會提供具體的API調用方法和操作步驟，而不只是解釋什么是Excel。

Q2：技能包能讓AI代理提升多少能力？

A：根據SkillsBench研究，精心編寫的技能包平均能讓AI代理的成功率提升16.2個百分點。但不同領域差異巨大，醫療保健領域能提升51.9個百分點，而軟件工程領域只提升4.5個百分點。有些情況下技能包甚至會降低性能。

Q3：AI代理能自己編寫技能包嗎？

A：目前不行。研究發現當AI代理嘗試自己編寫技能包時，平均性能反而下降了1.3個百分點。AI雖然擅長使用別人編寫的指南，但還無法可靠地為自己創作有效的操作手冊，人工精心編寫的技能包仍然是必需的。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.