網易首頁 > 網易號 > 正文申請入駐

斯坦福新研究：AI“黑客”表現超越9成人類專家，成本僅1/14

2025-12-12 17:24:17　來源: 智東西

北京舉報

分享至

智東西
編譯王欣逸
編輯程茜

智東西12月12日消息，昨天，斯坦福大學研究團隊發布最新研究，在探查斯坦福大學工程學院網絡漏洞的測試中，他們新推出并開源的Multi-Agent（多Agent）框架ARTEMIS表現超越了90%的人類專家，全面超越現有的Agent框架，而其實際成本約為人力的1/14。

ARTEMIS具備動態提示生成、任意子Agent調用和自動漏洞分級評估功能，在實際應用中，它能完成復雜的網絡任務，可以對網絡進行掃描，找出潛在漏洞和軟件安全隱患，并探尋利用這些漏洞的方法。

本次實驗，研究人員讓ARTEMIS與10名人類滲透測試專家、多個現有的Agent框架共同執行任務，讓他們對斯坦福大學工程學院的網絡進行探查，但不得實際入侵，以此來全面評估他們的探查能力。結果顯示，基于OpenAI的GPT-5的ARTEMIS框架綜合表現位列第二，共發現9個有效漏洞，提交有效率達82%，其表現優于十位人類參與者中的九位，全面碾壓其他Agent框架，包括基于同一底層模型GPT-5的單Agent自主框架Codex和CyAgent。

▲P為人類網絡安全專業人員；A1、A2分別是ARTEMIS兩個不同配置的框架，前者基于GPT-5，后者基于集成模型；CO、CS和CG分別是使用GPT-5模型作為基礎來運行的單Agent自主框架Codex、使用Claude Sonnet 4模型作為基礎來運行單Agent自主框架CyAgent和使用GPT-5模型作為基礎來運行CyAgent。

除了擁有與頂尖滲透測試專家相當甚至超越的性能之外，ARTEMIS把成本也打下來了，搭載GPT-5的ARTEMIS框架每小時成本約為18美元（約合人民幣127.1元），約為美國滲透測試員時薪的1/14。

不過，論文指出，ARTEMIS還存在處理基于圖形用戶界面（GUI）的任務時有困難、比人類更高的誤報率等短板。

該論文現已發布在arXiv上，題為《將AI Agents與網絡安全專業人員在真實世界滲透測試中的表現進行比較（Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing）》。

論文地址：https://arxiv.org/abs/2512.09882

一、綜合排名第二，全面碾壓現有Agent框架，還能提升原始模型性能

研究人員建立了ARTEMIS框架下的兩個對照組，以評估不同配置下的ARTEMIS框架性能。一個是使用OpenAI的GPT-5作為監督器和子Agent的A1，另一個是使用集成模型作為監督器、Anthropic的編程模型Claude Sonnet 4作為子Agent的A2，集成模型包括了以下模型：OpenAI的推理模型o3和o3 Pro、Anthropic的編程模型Claude Sonnet 4和Claude Opus 4，以及谷歌的Gemini 2.5 Pro。

從結果來看，A2在和一眾人類滲透測試專家、現有的Multi-Agent框架的比較中位列第二名，共發現9個有效漏洞，提交有效率達82%，其表現優于10位人類參與者中的9位。A1則打敗了5名人類參與者，位列第七名。

除ARTEMIS外，分數最高的Agents框架CO（基于GPT-5的Codex）僅超越了兩位人類參與者，而CS（基于Claude Sonnet 4的CyAgent）和CG（基于GPT-5的CyAgent）落后于所有人類參與者，CS的總得分僅為A2的四分之一。

從漏洞的質量來看，人類參與者發現的Critical（關鍵）漏洞占據了更大的比例；ARTEMIS框架的兩個配置A1和A2發現的關鍵漏洞比例更小，且誤判的內容相對較多；A1和A2雖然提交了相同數量的漏洞，但A1的正確率僅為55%，關鍵漏洞僅占18%，而A2的關鍵漏洞占比則達到了45%，這表明不同的模型組合和配置對框架整體性能有影響，A2的多模型架構可能在處理復雜任務和減少誤報方面更為有效。

在時間上，人類參與者和ARTEMIS框架的表現也不盡相同。ARTEMIS框架表現出了長時間、持續、但間歇性產出的節奏，在提交漏洞之間通常有更長的間隔時間；人類參與者則呈現出了高度可變、依賴靈感和集中爆發的節奏。他們的活躍時間（通過鍵盤輸入判斷）和漏洞提交時間點分布不均勻。

值得一提的是，ARTEMIS和人類最根本的區別是，ARTEMIS在發現一個值得關注的目標后，會立即在后臺啟動一個專用的子Agent去探測它，同時主線繼續進行其他工作，在峰值時，ARTEMIS可以達到8個子Agents并行運行。

此外，從網絡安全基準測試Cybench的表現來看，在基于GPT-5的Artemis框架和Claude 4.5 Sonnet、GPT-5等模型能力對比中，ARTEMIS以48.6%的成功率位列第二，僅次于Claude 4.5 Sonnet（55%），且略高于其底層模型GPT-5（45.9%）。

這一結果意味著，ARTEMIS框架在解決網絡安全問題中，具備與頂級大模型相當的能力，且在一定程度上提升了基礎模型的性能。

二、由監督器、子Agent、分級器組成，成本僅為人類專家的1/14

現有的針對網絡安全AI Agent的研究主要有三類：一是PentestGPT等需要人類引導等半自主框架；二是Codex、CyAgent等能獨立運行但能力有限的單Agent自主框架；三是Incalmo、MAPTA等Multi-Agent（多Agent）自主框架。

論文中提到，ARTEMIS是一個復雜的Multi-Agent框架，被設計用來對真實世界的生產系統進行長周期、復雜、滲透性測試，該框架目前已開源。

它有三個核心組件：一個監督器，負責管理工作流；一組任意子Agents集群，負責執行具體任務；一個漏洞分級器，負責漏洞驗證。

ARTEMIS借鑒了現有編程Agent的設計，并通過任務列表、筆記系統和智能摘要機制，達到了比現有Agent持續運行時間更長的能力。在分配任務時，其自定義提示生成模塊會為子Agent創建任務特定的系統指令。因此，ARTEMIS有著動態生成系統提示、上下文管理和分級報告等功能的優勢性。

此外，ARTEMIS在經濟成本上也相當占優。以基于GPT-5的ARTEMIS框架A1來看，論文指出，A1每小時成本約為18.21美元（約合人民幣128.6元），按每周40小時計算，其年化成本約為3.78萬美元（約合人民幣26.7萬元）。

而人類滲透測試人員的每日收費通常在2000至2500美元左右（約合人民幣1.41萬元至1.77萬元），按每日工作8小時計算，時薪約為250美元至312美元（約合人民幣1765元至2204元），是ARTEMIS框架每小時成本的14倍多；市場上美國滲透測試員的的年薪平均為12.5萬美元（約合人民幣88.29萬元），是ARTEMIS框架年成本的3倍多。即使是使用每小時成本更高的A2（約為59美元，約合人民幣416.7元），其成本也低于人類專家。

三、具備執行技術，短板是找不到漏洞和GUI限制

不過，據《華爾街日報》報道，ARTEMIS并非完美無缺，在誤報率上，A2誤報了18%的漏洞，A1失誤的更多。除了失誤外，ARTEMIS還完全遺漏了一個大多數人類測試人員能輕易發現的明顯漏洞。

ARTEMIS頻繁提交漏洞報告，卻很少發現目標漏洞，而且總是發現低嚴重性、低復雜度或無法利用的漏洞。這種遺漏與誤報的背后，可能與ARTEMIS的決策邏輯有關。論文指出，ARTEMIS框架提交漏洞報告次數的增加與未發現目標漏洞存在相關性，這可能是因為ARTEMIS在主機上發現其他漏洞后便轉移了目標。

研究人員稱，ARTEMIS的瓶頸在于識別漏洞模式而非技術執行能力。在中、高等級的提示下，ARTEMIS成功找到了大部分目標漏洞，這表明ARTEMIS具備漏洞的技術執行能力。當提示信息減少，僅提供低等級、僅信息和僅主機提示時，ARTEMIS成功率急劇下降，即它的自主識別攻擊入口和識別漏洞的能力不足。此外ARTEMIS還存在行為不確定性，在“未經身份驗證的遠程控制臺訪問”這一任務中，ARTEMIS在高等級提示下依然任務失敗，在中等級和僅主機提示下卻能完成任務。

此外，ARTEMIS還存在一個關鍵限制，作為基于命令行和文本分析的AI，它無法通過圖形用戶界面（GUI）與瀏覽器進行交互。

斯坦福大學工程學院系統與網絡安全負責人亞歷克斯·凱勒（Alex Keller）稱：“此前斯坦福大學的網絡從未遭受過AI程序的攻擊，此次實驗似乎是彌補斯坦福大學網絡安全漏洞的一種有效方式。在我看來，實驗的益處遠大于任何風險。”

斯坦福大學計算機科學教授丹·博內（Dan Boneh）為該研究提供了建議：“鑒于全球大部分代碼都未經過安全漏洞測試，ARTEMIS等工具將幫助網絡安全專業人士發現并修復比以往更多的代碼漏洞。”此次測試，ARTEMIS就發現了斯坦福大學存在的一個有安全問題的過期網頁。

結語：正探索多Agent框架的配置優化與架構迭代

在真實環境中與人類的滲透測試和基準測試Cybench均顯示，ARTEMIS不僅在其在復雜現實任務中達到了可與頂尖人類專家持平甚至超越的能力，在顯著優于其他現有Agent框架的同時還做到了不損害模型的原始能力，并在原始模型上實現了能力的提高。

為軟件開發者與白帽黑客提供協作平臺的機構HackerOne的調研報告指出：當前已有70%的安全研究人員開始采用AI工具輔助漏洞挖掘。

AI在自動化網絡攻擊領域正在走向實戰應用。研究人員稱，他們未來將持續探索這一領域，創建可運行的環境副本，對不同的Agent架構、配置和模型進行消融實驗，優化基礎設施，還將與企業合作開展漏洞賞金計劃等。

來源：《華爾街日報》、arXiv

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.