<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      斯坦福新研究:AI“黑客”表現超越9成人類專家,成本僅1/14

      0
      分享至


      智東西
      編譯 王欣逸
      編輯 程茜

      智東西12月12日消息,昨天,斯坦福大學研究團隊發布最新研究,在探查斯坦福大學工程學院網絡漏洞的測試中,他們新推出并開源的Multi-Agent(多Agent)框架ARTEMIS表現超越了90%的人類專家,全面超越現有的Agent框架,而其實際成本約為人力的1/14。

      ARTEMIS具備動態提示生成、任意子Agent調用和自動漏洞分級評估功能,在實際應用中,它能完成復雜的網絡任務,可以對網絡進行掃描,找出潛在漏洞和軟件安全隱患,并探尋利用這些漏洞的方法。

      本次實驗,研究人員讓ARTEMIS與10名人類滲透測試專家、多個現有的Agent框架共同執行任務,讓他們對斯坦福大學工程學院的網絡進行探查,但不得實際入侵,以此來全面評估他們的探查能力。結果顯示,基于OpenAI的GPT-5的ARTEMIS框架綜合表現位列第二,共發現9個有效漏洞,提交有效率達82%,其表現優于十位人類參與者中的九位,全面碾壓其他Agent框架,包括基于同一底層模型GPT-5的單Agent自主框架Codex和CyAgent。


      ▲P為人類網絡安全專業人員;A1、A2分別是ARTEMIS兩個不同配置的框架,前者基于GPT-5,后者基于集成模型;CO、CS和CG分別是使用GPT-5模型作為基礎來運行的單Agent自主框架Codex、使用Claude Sonnet 4模型作為基礎來運行單Agent自主框架CyAgent和使用GPT-5模型作為基礎來運行CyAgent。

      除了擁有與頂尖滲透測試專家相當甚至超越的性能之外,ARTEMIS把成本也打下來了,搭載GPT-5的ARTEMIS框架每小時成本約為18美元(約合人民幣127.1元),約為美國滲透測試員時薪的1/14。

      不過,論文指出,ARTEMIS還存在處理基于圖形用戶界面(GUI)的任務時有困難、比人類更高的誤報率等短板。

      該論文現已發布在arXiv上,題為《將AI Agents與網絡安全專業人員在真實世界滲透測試中的表現進行比較(Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing)》。


      論文地址:https://arxiv.org/abs/2512.09882

      一、綜合排名第二,全面碾壓現有Agent框架,還能提升原始模型性能

      研究人員建立了ARTEMIS框架下的兩個對照組,以評估不同配置下的ARTEMIS框架性能。一個是使用OpenAI的GPT-5作為監督器和子Agent的A1,另一個是使用集成模型作為監督器、Anthropic的編程模型Claude Sonnet 4作為子Agent的A2,集成模型包括了以下模型:OpenAI的推理模型o3和o3 Pro、Anthropic的編程模型Claude Sonnet 4和Claude Opus 4,以及谷歌的Gemini 2.5 Pro。

      從結果來看,A2在和一眾人類滲透測試專家、現有的Multi-Agent框架的比較中位列第二名,共發現9個有效漏洞,提交有效率達82%,其表現優于10位人類參與者中的9位。A1則打敗了5名人類參與者,位列第七名。

      除ARTEMIS外,分數最高的Agents框架CO(基于GPT-5的Codex)僅超越了兩位人類參與者,而CS(基于Claude Sonnet 4的CyAgent)和CG(基于GPT-5的CyAgent)落后于所有人類參與者,CS的總得分僅為A2的四分之一。

      從漏洞的質量來看,人類參與者發現的Critical(關鍵)漏洞占據了更大的比例;ARTEMIS框架的兩個配置A1和A2發現的關鍵漏洞比例更小,且誤判的內容相對較多;A1和A2雖然提交了相同數量的漏洞,但A1的正確率僅為55%,關鍵漏洞僅占18%,而A2的關鍵漏洞占比則達到了45%,這表明不同的模型組合和配置對框架整體性能有影響,A2的多模型架構可能在處理復雜任務和減少誤報方面更為有效。


      在時間上,人類參與者和ARTEMIS框架的表現也不盡相同。ARTEMIS框架表現出了長時間、持續、但間歇性產出的節奏,在提交漏洞之間通常有更長的間隔時間;人類參與者則呈現出了高度可變、依賴靈感和集中爆發的節奏。他們的活躍時間(通過鍵盤輸入判斷)和漏洞提交時間點分布不均勻。


      值得一提的是,ARTEMIS和人類最根本的區別是,ARTEMIS在發現一個值得關注的目標后,會立即在后臺啟動一個專用的子Agent去探測它,同時主線繼續進行其他工作,在峰值時,ARTEMIS可以達到8個子Agents并行運行。

      此外,從網絡安全基準測試Cybench的表現來看,在基于GPT-5的Artemis框架和Claude 4.5 Sonnet、GPT-5等模型能力對比中,ARTEMIS以48.6%的成功率位列第二,僅次于Claude 4.5 Sonnet(55%),且略高于其底層模型GPT-5(45.9%)。


      這一結果意味著,ARTEMIS框架在解決網絡安全問題中,具備與頂級大模型相當的能力,且在一定程度上提升了基礎模型的性能。

      二、由監督器、子Agent、分級器組成,成本僅為人類專家的1/14

      現有的針對網絡安全AI Agent的研究主要有三類:一是PentestGPT等需要人類引導等半自主框架;二是Codex、CyAgent等能獨立運行但能力有限的單Agent自主框架;三是Incalmo、MAPTA等Multi-Agent(多Agent)自主框架。

      論文中提到,ARTEMIS是一個復雜的Multi-Agent框架,被設計用來對真實世界的生產系統進行長周期、復雜、滲透性測試,該框架目前已開源。

      它有三個核心組件:一個監督器,負責管理工作流;一組任意子Agents集群,負責執行具體任務;一個漏洞分級器,負責漏洞驗證。


      ARTEMIS借鑒了現有編程Agent的設計,并通過任務列表、筆記系統和智能摘要機制,達到了比現有Agent持續運行時間更長的能力。在分配任務時,其自定義提示生成模塊會為子Agent創建任務特定的系統指令。因此,ARTEMIS有著動態生成系統提示、上下文管理和分級報告等功能的優勢性。

      此外,ARTEMIS在經濟成本上也相當占優。以基于GPT-5的ARTEMIS框架A1來看,論文指出,A1每小時成本約為18.21美元(約合人民幣128.6元),按每周40小時計算,其年化成本約為3.78萬美元(約合人民幣26.7萬元)。

      而人類滲透測試人員的每日收費通常在2000至2500美元左右(約合人民幣1.41萬元至1.77萬元),按每日工作8小時計算,時薪約為250美元至312美元(約合人民幣1765元至2204元),是ARTEMIS框架每小時成本的14倍多;市場上美國滲透測試員的的年薪平均為12.5萬美元(約合人民幣88.29萬元),是ARTEMIS框架年成本的3倍多。即使是使用每小時成本更高的A2(約為59美元,約合人民幣416.7元),其成本也低于人類專家。

      三、具備執行技術,短板是找不到漏洞和GUI限制

      不過,據《華爾街日報》報道,ARTEMIS并非完美無缺,在誤報率上,A2誤報了18%的漏洞,A1失誤的更多。除了失誤外,ARTEMIS還完全遺漏了一個大多數人類測試人員能輕易發現的明顯漏洞。

      ARTEMIS頻繁提交漏洞報告,卻很少發現目標漏洞,而且總是發現低嚴重性、低復雜度或無法利用的漏洞。這種遺漏與誤報的背后,可能與ARTEMIS的決策邏輯有關。論文指出,ARTEMIS框架提交漏洞報告次數的增加與未發現目標漏洞存在相關性,這可能是因為ARTEMIS在主機上發現其他漏洞后便轉移了目標。

      研究人員稱,ARTEMIS的瓶頸在于識別漏洞模式而非技術執行能力。在中、高等級的提示下,ARTEMIS成功找到了大部分目標漏洞,這表明ARTEMIS具備漏洞的技術執行能力。當提示信息減少,僅提供低等級、僅信息和僅主機提示時,ARTEMIS成功率急劇下降,即它的自主識別攻擊入口和識別漏洞的能力不足。此外ARTEMIS還存在行為不確定性,在“未經身份驗證的遠程控制臺訪問”這一任務中,ARTEMIS在高等級提示下依然任務失敗,在中等級和僅主機提示下卻能完成任務。


      此外,ARTEMIS還存在一個關鍵限制,作為基于命令行和文本分析的AI,它無法通過圖形用戶界面(GUI)與瀏覽器進行交互。

      斯坦福大學工程學院系統與網絡安全負責人亞歷克斯·凱勒(Alex Keller)稱:“此前斯坦福大學的網絡從未遭受過AI程序的攻擊,此次實驗似乎是彌補斯坦福大學網絡安全漏洞的一種有效方式。在我看來,實驗的益處遠大于任何風險。”

      斯坦福大學計算機科學教授丹·博內(Dan Boneh)為該研究提供了建議:“鑒于全球大部分代碼都未經過安全漏洞測試,ARTEMIS等工具將幫助網絡安全專業人士發現并修復比以往更多的代碼漏洞。”此次測試,ARTEMIS就發現了斯坦福大學存在的一個有安全問題的過期網頁。

      結語:正探索多Agent框架的配置優化與架構迭代

      在真實環境中與人類的滲透測試和基準測試Cybench均顯示,ARTEMIS不僅在其在復雜現實任務中達到了可與頂尖人類專家持平甚至超越的能力,在顯著優于其他現有Agent框架的同時還做到了不損害模型的原始能力,并在原始模型上實現了能力的提高。

      為軟件開發者與白帽黑客提供協作平臺的機構HackerOne的調研報告指出:當前已有70%的安全研究人員開始采用AI工具輔助漏洞挖掘。

      AI在自動化網絡攻擊領域正在走向實戰應用。研究人員稱,他們未來將持續探索這一領域,創建可運行的環境副本,對不同的Agent架構、配置和模型進行消融實驗,優化基礎設施,還將與企業合作開展漏洞賞金計劃等。

      來源:《華爾街日報》、arXiv

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中紀委打下今年第61虎!王文華被查,任職地原市長受賄1.55億被判無期

      中紀委打下今年第61虎!王文華被查,任職地原市長受賄1.55億被判無期

      新浪財經
      2025-12-18 12:49:30
      國發2號文件明確:2014前機關事業退休,工齡+地方補決定待遇高低

      國發2號文件明確:2014前機關事業退休,工齡+地方補決定待遇高低

      冬天來旅游
      2025-12-18 14:55:50
      大瓜!曝李湘前夫李厚霖被抓,兄妹受牽連,開直播還數10億債務

      大瓜!曝李湘前夫李厚霖被抓,兄妹受牽連,開直播還數10億債務

      丁丁鯉史紀
      2025-12-18 15:27:31
      赴日游客破3900萬,中國消費貢獻被弱化,“精日”敘事惹眾怒

      赴日游客破3900萬,中國消費貢獻被弱化,“精日”敘事惹眾怒

      西門老爹
      2025-12-18 14:13:35
      大船繞開新加坡直奔中國,打破“馬六甲困局”,中國布局終于起效

      大船繞開新加坡直奔中國,打破“馬六甲困局”,中國布局終于起效

      壹知眠羊
      2025-12-17 14:19:30
      美媒:《怦然心動》導演夫婦死因公布,其子被控謀殺后首次出庭

      美媒:《怦然心動》導演夫婦死因公布,其子被控謀殺后首次出庭

      環球網資訊
      2025-12-18 10:14:27
      湖北兩地最新人事任免,涉副市(縣)長

      湖北兩地最新人事任免,涉副市(縣)長

      愛意隨風起呀
      2025-12-18 14:25:19
      健美冠軍王昆去世,年僅30歲,好友透露原因,甲流鍛煉誘發心肌炎

      健美冠軍王昆去世,年僅30歲,好友透露原因,甲流鍛煉誘發心肌炎

      180視角
      2025-12-17 08:10:16
      張凱毅鳳冠事件后續:3D打印假冒手工,保險已賠付,更多黑幕被扒

      張凱毅鳳冠事件后續:3D打印假冒手工,保險已賠付,更多黑幕被扒

      通鑒史智
      2025-12-18 07:11:50
      一個八年級“厭學”男孩,從十八樓跳下后生還丨在場

      一個八年級“厭學”男孩,從十八樓跳下后生還丨在場

      紅星新聞
      2025-12-17 09:58:25
      馬云的預言將成真?2026年手上還握有存款的人,或將面臨三大挑戰

      馬云的預言將成真?2026年手上還握有存款的人,或將面臨三大挑戰

      墨蘭史書
      2025-12-18 05:10:02
      卡其色瑜伽褲搭藍色T恤,氣質優雅動人,展現高挑靚麗的魅力

      卡其色瑜伽褲搭藍色T恤,氣質優雅動人,展現高挑靚麗的魅力

      小喬古裝漢服
      2025-12-17 17:10:50
      《阿凡達3》預售票房斷崖式下跌,網友:這票價他們也是真敢開口

      《阿凡達3》預售票房斷崖式下跌,網友:這票價他們也是真敢開口

      星宿影視鴨
      2025-12-17 14:53:49
      拿5410萬頂薪,找不到交易下家,又一次受傷!你離退役越來越近

      拿5410萬頂薪,找不到交易下家,又一次受傷!你離退役越來越近

      老梁體育漫談
      2025-12-18 00:40:27
      64歲演員劉斌罕見露面!頭發快掉光煙不離手,和叢珊聚會顯闊氣

      64歲演員劉斌罕見露面!頭發快掉光煙不離手,和叢珊聚會顯闊氣

      甜檸聊史
      2025-12-17 16:05:53
      段永平忽然活躍于國內社交媒體,究竟是嗅到了什么不尋常的東西?

      段永平忽然活躍于國內社交媒體,究竟是嗅到了什么不尋常的東西?

      阿器談史
      2025-12-17 17:45:16
      萬萬沒想到,兩會最火提案不是醫療和就業,而是霍啟剛要治內卷!

      萬萬沒想到,兩會最火提案不是醫療和就業,而是霍啟剛要治內卷!

      滄海一書客
      2025-03-11 09:46:39
      暴跌69%!被中國制造碾壓,美國巨頭破產,還欠了中國代工廠25億

      暴跌69%!被中國制造碾壓,美國巨頭破產,還欠了中國代工廠25億

      三農老歷
      2025-12-17 14:35:47
      硬抗中國40天,日本喊來多國救兵,中方全不懼,美國批準對日軍售

      硬抗中國40天,日本喊來多國救兵,中方全不懼,美國批準對日軍售

      芊芊子吟
      2025-12-18 18:40:05
      難怪高市早苗不松口,日本等1個日子,想讓中方主動邀日首相訪華

      難怪高市早苗不松口,日本等1個日子,想讓中方主動邀日首相訪華

      知鑒明史
      2025-12-18 18:26:58
      2025-12-18 19:23:00
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      10933文章數 116928關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽

      頭條要聞

      南京博物院稱受贈5幅畫被鑒定為"假" 捐贈者后人回應

      頭條要聞

      南京博物院稱受贈5幅畫被鑒定為"假" 捐贈者后人回應

      體育要聞

      巴黎首奪世界級冠軍 加冕6冠王比肩巴薩拜仁

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      家居
      親子
      本地
      公開課
      軍事航空

      家居要聞

      高端私宅 理想隱居圣地

      親子要聞

      聚焦教聯體+協同共育!這場培訓為學前教育高質量發展蓄能

      本地新聞

      云游安徽|決戰烽火照古今,千秋一脈看宿州

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      福建艦入列后首過臺海 臺方談為何"甲板上沒有艦載機"

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲无aV在线中文字幕| 九九三级影视| 91网在线| 欧美国产日韩久久mv| 亚洲欧美国产免费综合视频| 2020精品国产自在现线看| 欧美国产精品不卡在线观看| jizzjizzyou| 娄底市| 亚洲无人区一区二区三区| 免费无遮挡无码视频网站| 国产美女久久久亚洲综合| 91乱伦视频| 闻喜县| 国产精品爽爽久久久久久| 免费观看全黄做爰的视频| 国产精品久久久久久久专区| 国产乡下妇女做爰视频| 国产亚洲精品久久久闺蜜| 国产精品无码成人午夜电影| 亚洲国产长腿丝袜av天堂| 亚洲精品乱码久久久久久蜜桃不卡| 男人天堂社区| 熟妇图区| 亚洲欧洲美洲无码精品va| 国产欧美在线观看一区| 少妇xxxxx| 亚洲爆乳精品无码一区二区三区| 日本高清不卡aⅴ免费网站| 亚洲av专区一区| 亚洲精品免费视频| 色欲av亚洲一区无码少妇| 日本极品少妇xxxx| 新婚少妇无套内谢国语播放| 亚洲AV电影在线观看| 欧美3p两根一起进高清免费视频 | 91视频免费| 婷婷亚洲综合五月天小说| 一区二区激情| 丰满熟妇乱又伦在线无码视频| 国产性天天综合网|