據《The Register》報道,授人以魚不如授人以漁,對 AI 智能體而言也是同理:教會它如何搜集信息,它就能自己持續獲取數據;但如果讓它完全自主摸索,結果往往只會更糟。
AI 智能體是一類機器學習模型(例如 Claude Opus 4.6),它們可通過 CLI 控制層(例如 Claude Code)調用其他軟件,并以迭代循環的方式運行。這類智能體可被指派處理各類任務,其中一些可能并不在其訓練數據覆蓋范圍內。
當缺乏相應訓練時,我們可以為智能體賦予新的“技能”——這些技能本質上是補充的參考資料,用于讓智能體具備特定領域的能力。此處所說的“技能”,包括指令、元數據,以及智能體加載用于獲取程序性知識的腳本、模板等其他資源。
![]()
例如,我們可以通過一項技能指導 AI 智能體如何處理 PDF 文件,這項技能包含 Markdown 文本、代碼、依賴庫以及相關 API 參考資料。盡管智能體從訓練數據中可能已掌握一定處理方法,但只有在更具體的指導下,它的表現才會更出色。
但近期一項名為《SkillsBench:基準測試智能體技能在多任務中的表現效果》的研究表明:要求智能體自主生成這類技能,結果往往令人失望。人工智能中的“智能”成分,在一定程度上被夸大了(The "intelligence" part of artificial intelligence is somewhat overstated)。
至少對于大語言模型(LLM)在推理階段而言確實如此——也就是訓練完成后的實際使用階段,而非訓練過程本身。
![]()
全新標桿
某些機器學習形式(如深度學習)的應用方式,可使神經網絡模型在電子游戲等特定領域任務中不斷提升性能。
AI 智能體呈現爆發式增長——例如 Anthropic 的 Claude Code、谷歌的 Gemini CLI、OpenAI 的 Codex CLI,這推動了用于增強智能體能力的各類技能快速發展,技能庫如雨后春筍般不斷涌現。
而鑒于 OpenClaw 智能體已在 Moltbook 自動化社區網絡中實現相互學習,如今早已到了該評估它們學習效果究竟如何的時候(And given how OpenClaw agents have been teaching each other in the Moltbook automated community network, it seems well past time to figure out how good a job they do at it)。
![]()
迄今為止,尚無統一方法來檢驗這些技能是否能兌現其承諾。為此,一支由40名計算機科學家組成的團隊著手開發了一套基準測試,用以評估智能體技能在推理過程中如何提升性能。
該團隊成員來自亞馬遜、BenchFlow、字節跳動、富士康、Zennity等企業,以及卡內基梅隆大學、斯坦福大學、加州大學伯克利分校、牛津大學等多所高校。
這項研究由智能體評測初創公司BenchFlow的創始人李祥一(音譯)牽頭,研究團隊開發了名為SkillsBench的測試,并在上述預印本論文中闡述了相關研究成果。
![]()
研究人員針對7種智能體模型配置、84項任務、共7308條執行軌跡展開了分析——每條軌跡代表一個智能體在特定技能條件下嘗試解決單個任務的過程。
團隊測試了三種條件:無技能、人工精選技能和自主生成技能(Three conditions were tested: no skills, curated skills, and self-generated skills)。
使用人工設計的精選技能的智能體,其任務完成率平均比無技能智能體高出16.2%,不過數據波動較大(The agents using curated skills – designed by people – completed tasks 16.2 percent more frequently than no-skill agents on average, though with high variance)。
![]()
研究中列舉了一個洪水風險分析任務的例子:不具備技能的智能體未采用合適的統計方法,通過率僅為2.9%;
而在配備精選技能后——即指導智能體使用皮爾遜Ⅲ型概率分布、遵循美國地質調查局標準方法,并明確調用SciPy函數與參數解讀等細節——其任務通過率提升至80%。
從具體知識領域來看,醫療健康領域(提升51.9個百分點)和制造業領域(提升41.9個百分點)的人工定制技能對AI智能體幫助最大,而數學(提升6.0個百分點)和軟件工程(提升4.5個百分點)相關技能帶來的提升較小。
![]()
研究作者解釋道,這是因為需要專業知識的領域在訓練數據中占比通常偏低,因此由人類為這些領域的智能體補充技能是合理有效的。
并且在補充技能時,少即是多:只包含少量(2–3個)模塊的技能,效果遠優于大量數據堆砌(And when doing so, less is more – skills with only a few (2-3) modules performed better than massive data dumps)。
這一點同樣適用于模型規模——經過人工整理的技能能讓小模型在任務完成率上越級表現(That applies to model scale too – curated skills help smaller models punch above their weight class in terms of task completion)。
![]()
配備技能的 Anthropic Claude Haiku 4.5 模型(27.7%)表現優于無技能的 Haiku 4.5(11%),也優于無技能的 Claude Opus 4.5(22%)。
當研究人員讓智能體自學技能時,要求它們:
- 分析任務需求、領域知識和所需API;
- 編寫 1–5 個模塊化技能文檔來解決任務;
- 將每個技能保存為 Markdown 文件;
- 再利用生成的參考資料完成任務。
![]()
結果是:嘗試自學的智能體,表現反而比完全不嘗試自學的更差(Agents that tried this did worse than if they hadn't tried at all)。
至少就目前而言,人工智能革命無法完全自動化——機器仍需要人類導師為其指引正確方向。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.