![]()
新智元報道
編輯:LRST
【新智元導讀】不再依賴像「安檢站」一樣每步必停的外部插件,首創「內源感知+分層篩選」機制,將Agent防御延時從200%+降至8.3%,安全與效率均達到SOTA級表現!
傳統的Agent防御機制通常采用強制進行安全檢查的方式,即在 Agent 執行的特定階段,包括Query、Plan、Action、Observation等階段,都強制插入外部安全檢測。這種做法雖然有效,但會切斷了Agent的思維流,導致嚴重的延時積累,成本高昂且反應遲鈍。
來自上海財經大學、新加坡國立大學、卡耐基梅隆大學等高校和學術組織的研究者們聯合重磅推出Spider-Sense智能體防御框架,通過兩大核心技術打破了這一僵局:利用Intrinsic Risk Sensing將風險意識植入Agent認知流,實現全鏈路的內源性感知;配合Hierarchical Adaptive Screening機制,動態平衡向量檢索與深度推理,實現威脅的自適應篩選。
![]()
論文鏈接:https://arxiv.org/abs/2602.05386
開源鏈接:https://github.com/aifinlab/Spider-Sense
基準鏈接:https://huggingface.co/datasets/aifinlab/S2Bench
該框架讓Agent告別了被動防御,在 Mind2Web和EICU這些主流數據集上在大部分評估標準下均取得最優,在構建出的攻擊數據集上實現了SOTA級的安全與效率雙優表現。
Spider-Sense提出了一種變革性的思路:防御應該是內源的、選擇性的,而非外掛的、強制的。
該框架賦予Agent一種維持內源性感知風險的能力。Agent 在執行任務的過程中,會自主進行內源性風險感知。
只有當Agent 「感覺」到工具輸出可疑或者指令中有陷阱等異常的時侯,才會像蜘蛛俠感知到危險一樣,動態觸發防御機制。隨后,系統通過分層自適應篩選,在效率和精度之間找到最佳平衡點。
關于Spider Sense的解釋:蜘蛛俠平時總是保持放松且高效的行進狀態,只有在突發危險引發「激靈」預警的瞬間,才會下意識地觸發閃避或攔截動作。
![]()
核心優勢與技術突破
內源性風險感知
IRS(Intrinsic Risk Sensing)賦予Agent 「原生直覺」,從「外掛監控」到「原生直覺」的進化,傳統防御強制進行安全檢查,笨重且遲鈍。而 Spider-Sense 的靈魂——IRS,則是將安全意識通過指令微調植入 Agent 的推理邏輯中。
全鏈路無死角感知: IRS 并不只盯著用戶的輸入,而是滲透在 Agent 執行任務的四個關鍵生命周期中:
Query 階段:審視用戶指令是否存在陷阱。
Plan 階段:監控記憶檢索和規劃生成,防止記憶中毒或惡意規劃。
Action 階段:審計工具參數是否存在風險。
Observation 階段:檢查工具的返回結果,如網頁內容、API 返回值等。
按需觸發: Agent 只有在感知到異常時,才會自主生成特定的感知信號,如
會在 Action 階段觸發。 這說明在 99% 的安全交互中,防御機制是「隱形」的,零延時損耗;只有在真正的危機時刻,它才會像蜘蛛俠的感應一樣瞬間激活。
分層自適應篩選
當IRS感知到風險后,HAS(Hierarchical Adaptive Screening)就發揮作用了。
為了解決大模型推理延遲高與輕量化模型識別精度不足的問題,一旦防御被觸發,系統采用分層式篩選:
粗粒度檢測(Coarse-grained)
機制:系統維護了四個階段的攻擊向量數據庫(Attack Vector Databases)。HAS將可疑內容向量化,與已知攻擊模式進行余弦相似度匹配。
細粒度分析(Fine-grained)
機制:只有當相似度低于閾值,但又不完全安全時,系統會檢索 Top-K 相關案例,并調用 LLM 進行深度對比分析。
全生命周期防護
不同于以往僅關注文本輸入輸出的防御,Spider-Sense 覆蓋了 Agent 交互的全鏈路——從用戶輸入(Query)、內部記憶規劃(Plan)、工具參數審計(Action)到觀察工具調用后(Observation),無死角防御。
![]()
實驗結果
兼并速度與安全
為了驗證效果,研究團隊構建了一個包含多場景、真實工具調用、多階段攻擊以及高質量假陽性樣本的高質量基準測試集
高質量假陽性樣本指那些在結構與操作模式上酷似惡意攻擊、但本質意圖完全無害的「高難度」測試用例,專門用于考驗防御系統是否會因過度敏感而誤傷合法的用戶操作
在實驗中,Spider-Sense展現了令人印象深刻的性能優勢,特別是在處理復雜的多步Agent交互時:
極低的延遲損耗:相比于基線方法以及 Guardagent 和 AGrail 動輒 197% 到 381% 的額外時間開銷,Spider-Sense 僅多了8.3%的延時。
主流數據集的表現:框架在Mind2Web和EICU這些主流數據集上展現了卓越的綜合性能。除少數指標外,該方法在大部分評估標準下均取得最優。
SOTA 級防御表現:在全新構建的基準測試中,Spider-Sense取得了最低的攻擊成功率(ASR)。
極低的誤報率:實現了最低的誤報率(FPR),證明了它不僅防得住,而且不會因為過度防御而打斷用戶的正常操作。
![]()
![]()
案例研究
一次真實的攻擊攔截
看一個具體的工具返回注入攻擊(Tool Return Injection)案例:
場景:一個臨床分析 Agent 調用工具獲取患者記錄。
攻擊:工具返回的內容被篡改,包含隱藏的惡意代碼(
import fake_module),試圖誘導 Agent 執行。感知:Agent 在 Observation(工具調用后階段) 敏銳地感知到了工具返回值的異常,觸發
信號。篩選:首先進行數據庫檢索,發現與已知攻擊模式相似,隨即調用深度對比分析,判定該代碼與上下文無關且具有危害性。
結果:Agent自主決定終止執行,攻擊失敗。
整個過程Agent自主完成,既沒有因噎廢食,也沒有漏過任何蛛絲馬跡。
![]()
結論與展望
內源驅動,降本增效,Spider-Sense將安全防御從「外掛監控」轉變為「原生直覺」。依靠IRS和HAS兩大機制,以僅8.3%的延時代價在上實現了 SOTA 級防御效果,完美解決了安全與效率的沖突。
參考資料:
https://arxiv.org/abs/2602.05386
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.