網易首頁 > 網易號 > 正文申請入駐

AI智能體也有「蜘蛛感應」，防御延時驟降至8.3%

2026-02-14 12:55:51　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】不再依賴像「安檢站」一樣每步必停的外部插件，首創「內源感知+分層篩選」機制，將Agent防御延時從200%+降至8.3%，安全與效率均達到SOTA級表現！

傳統的Agent防御機制通常采用強制進行安全檢查的方式，即在 Agent 執行的特定階段，包括Query、Plan、Action、Observation等階段，都強制插入外部安全檢測。這種做法雖然有效，但會切斷了Agent的思維流，導致嚴重的延時積累，成本高昂且反應遲鈍。

來自上海財經大學、新加坡國立大學、卡耐基梅隆大學等高校和學術組織的研究者們聯合重磅推出Spider-Sense智能體防御框架，通過兩大核心技術打破了這一僵局：利用Intrinsic Risk Sensing將風險意識植入Agent認知流，實現全鏈路的內源性感知；配合Hierarchical Adaptive Screening機制，動態平衡向量檢索與深度推理，實現威脅的自適應篩選。

論文鏈接：https://arxiv.org/abs/2602.05386

開源鏈接：https://github.com/aifinlab/Spider-Sense

基準鏈接：https://huggingface.co/datasets/aifinlab/S2Bench

該框架讓Agent告別了被動防御，在 Mind2Web和EICU這些主流數據集上在大部分評估標準下均取得最優，在構建出的攻擊數據集上實現了SOTA級的安全與效率雙優表現。

Spider-Sense提出了一種變革性的思路：防御應該是內源的、選擇性的，而非外掛的、強制的。

該框架賦予Agent一種維持內源性感知風險的能力。Agent 在執行任務的過程中，會自主進行內源性風險感知。

只有當Agent 「感覺」到工具輸出可疑或者指令中有陷阱等異常的時侯，才會像蜘蛛俠感知到危險一樣，動態觸發防御機制。隨后，系統通過分層自適應篩選，在效率和精度之間找到最佳平衡點。

關于Spider Sense的解釋：蜘蛛俠平時總是保持放松且高效的行進狀態，只有在突發危險引發「激靈」預警的瞬間，才會下意識地觸發閃避或攔截動作。

核心優勢與技術突破

內源性風險感知

IRS(Intrinsic Risk Sensing)賦予Agent 「原生直覺」，從「外掛監控」到「原生直覺」的進化，傳統防御強制進行安全檢查，笨重且遲鈍。而 Spider-Sense 的靈魂——IRS，則是將安全意識通過指令微調植入 Agent 的推理邏輯中。

全鏈路無死角感知： IRS 并不只盯著用戶的輸入，而是滲透在 Agent 執行任務的四個關鍵生命周期中：
- Query 階段：審視用戶指令是否存在陷阱。
- Plan 階段：監控記憶檢索和規劃生成，防止記憶中毒或惡意規劃。
- Action 階段：審計工具參數是否存在風險。
- Observation 階段：檢查工具的返回結果，如網頁內容、API 返回值等。
按需觸發： Agent 只有在感知到異常時，才會自主生成特定的感知信號，如會在 Action 階段觸發。這說明在 99% 的安全交互中，防御機制是「隱形」的，零延時損耗；只有在真正的危機時刻，它才會像蜘蛛俠的感應一樣瞬間激活。

分層自適應篩選

當IRS感知到風險后，HAS(Hierarchical Adaptive Screening)就發揮作用了。

為了解決大模型推理延遲高與輕量化模型識別精度不足的問題，一旦防御被觸發，系統采用分層式篩選：

粗粒度檢測（Coarse-grained）
- 機制：系統維護了四個階段的攻擊向量數據庫（Attack Vector Databases）。HAS將可疑內容向量化，與已知攻擊模式進行余弦相似度匹配。
細粒度分析（Fine-grained）
- 機制：只有當相似度低于閾值，但又不完全安全時，系統會檢索 Top-K 相關案例，并調用 LLM 進行深度對比分析。

全生命周期防護

不同于以往僅關注文本輸入輸出的防御，Spider-Sense 覆蓋了 Agent 交互的全鏈路——從用戶輸入（Query）、內部記憶規劃（Plan）、工具參數審計（Action）到觀察工具調用后（Observation），無死角防御。

實驗結果

兼并速度與安全

為了驗證效果，研究團隊構建了一個包含多場景、真實工具調用、多階段攻擊以及高質量假陽性樣本的高質量基準測試集

高質量假陽性樣本指那些在結構與操作模式上酷似惡意攻擊、但本質意圖完全無害的「高難度」測試用例，專門用于考驗防御系統是否會因過度敏感而誤傷合法的用戶操作

在實驗中，Spider-Sense展現了令人印象深刻的性能優勢，特別是在處理復雜的多步Agent交互時：

極低的延遲損耗：相比于基線方法以及 Guardagent 和 AGrail 動輒 197% 到 381% 的額外時間開銷，Spider-Sense 僅多了8.3%的延時。
主流數據集的表現：框架在Mind2Web和EICU這些主流數據集上展現了卓越的綜合性能。除少數指標外，該方法在大部分評估標準下均取得最優。
SOTA 級防御表現：在全新構建的基準測試中，Spider-Sense取得了最低的攻擊成功率（ASR）。
極低的誤報率：實現了最低的誤報率（FPR），證明了它不僅防得住，而且不會因為過度防御而打斷用戶的正常操作。

案例研究

一次真實的攻擊攔截

看一個具體的工具返回注入攻擊（Tool Return Injection）案例：

場景：一個臨床分析 Agent 調用工具獲取患者記錄。
攻擊：工具返回的內容被篡改，包含隱藏的惡意代碼（import fake_module），試圖誘導 Agent 執行。
感知：Agent 在 Observation（工具調用后階段）敏銳地感知到了工具返回值的異常，觸發信號。
篩選：首先進行數據庫檢索，發現與已知攻擊模式相似，隨即調用深度對比分析，判定該代碼與上下文無關且具有危害性。
結果：Agent自主決定終止執行，攻擊失敗。

整個過程Agent自主完成，既沒有因噎廢食，也沒有漏過任何蛛絲馬跡。

結論與展望

內源驅動，降本增效，Spider-Sense將安全防御從「外掛監控」轉變為「原生直覺」。依靠IRS和HAS兩大機制，以僅8.3%的延時代價在上實現了 SOTA 級防御效果，完美解決了安全與效率的沖突。

參考資料：

https://arxiv.org/abs/2602.05386

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.