網易首頁 > 網易號 > 正文申請入駐

攻破閉源多模態大模型：一種基于特征最優對齊的新型對抗攻擊方法

2025-10-17 13:52:35　來源: 機器之心Pro

北京舉報

分享至

近年來，多模態大語言模型（MLLMs）取得了令人矚目的突破，在視覺理解、跨模態推理、圖像描述等任務上表現出強大的能力。然而，隨著這些模型的廣泛部署，其潛在的安全風險也逐漸引起關注。

研究表明，MLLMs 同樣繼承了視覺編碼器對抗脆弱性的特征，容易受到對抗樣本的欺騙。這些對抗樣本在現實應用中可能導致模型輸出錯誤或泄露敏感信息，給大規模模型的安全部署帶來嚴重隱患。

在此背景下，如何提升對抗攻擊的可遷移性 —— 即對抗樣本跨模型、尤其是跨閉源模型仍能保持攻擊有效性 —— 成為當前研究的關鍵難題。

然而，當面對如 GPT-4、Claude-3 等強大的閉源商業模型時，現有攻擊方法的遷移效果顯著下降。原因在于，這些方法通常僅對齊全局特征（如 CLIP 的 [CLS] token），而忽略了圖像補丁（patch tokens）中蘊含的豐富局部信息，導致特征對齊不充分、遷移能力受限。

為解決這一難題，本文提出了一種名為FOA-Attack（Feature Optimal Alignment Attack）的全新靶向遷移式對抗攻擊框架。該方法的核心思想是同時在全局和局部兩個層面實現特征的最優對齊，從而顯著提升攻擊的遷移能力。

在全局層面，通過余弦相似度損失來對齊粗粒度的全局特征。
在局部層面，創新性地使用聚類技術提取關鍵的局部特征模式，并將其建模為一個最優傳輸（Optimal Transport, OT）問題，實現細粒度的精準對齊。
此外，本文還設計了一種動態集成權重策略，在攻擊生成過程中自適應地平衡多個模型的影響，進一步增強遷移性。

大量實驗表明，FOA-Attack 在攻擊各種開源及閉源 MLLMs 時，性能全面超越了現有 SOTA 方法，尤其是在針對商業閉源模型的攻擊上取得了驚人的成功率，且本工作對應的論文和代碼均已開源。

論文鏈接：https://arxiv.org/abs/2505.21494
代碼鏈接：https://github.com/jiaxiaojunQAQ/FOA-Attack

研究背景

多模態大語言模型（MLLMs），如 GPT-4o、Claude-3.7 和 Gemini-2.0，通過融合視覺和語言能力，在圖像理解、視覺問答等任務上展現了非凡的性能。然而，這些模型繼承了其視覺編碼器的脆弱性，容易受到對抗樣本的攻擊。對抗樣本通過在原始圖像上添加人眼難以察覺的微小擾動，就能誘導模型產生錯誤的輸出。

對抗攻擊分為非目標攻擊（旨在使模型輸出錯誤）目標攻擊（旨在使模型輸出特定的目標內容）。對于無法訪問模型內部結構和參數的黑盒場景（尤其是商業閉源模型），實現高效的目標遷移攻擊極具挑戰性。

這意味著，在一個或多個替代模型（surrogate models）上生成的對抗樣本，需要能夠成功欺騙一個完全未知的黑盒目標模型。盡管現有工作已證明了這種攻擊的可行性，但其遷移成功率，特別是針對最先進的閉源 MLLMs 時，仍有很大的提升空間。

動機和理論分析

在多模態大語言模型（MLLMs）依賴的 Transformer 架構視覺編碼器（如 CLIP）中，存在明確的特征分工：[CLS] token 提煉圖像宏觀主題（如「大象」「森林」），但會舍棄細粒度細節；patch tokens 則編碼局部信息（如「大象耳朵形態」「植被密度」），是模型精準理解圖像的關鍵，缺失會導致對抗樣本語義真實性不足。

現有對抗攻擊方法的核心局限的是，僅聚焦 [CLS] token 全局特征對齊，忽略 patch tokens 的局部價值，引發兩大問題：一是語義對齊不充分，全局特征難區分「大象在森林」與「大象在草原」這類細節差異，局部特征卻能清晰界定；二是遷移性差，擾動過度適配替代模型的全局特征，閉源 MLLMs（如 GPT-4o）因視覺編碼器設計不同，易識別「虛假語義」，攻擊效果驟降。

為突破此局限，FOA-Attack 提出「全局 + 局部」雙維度對齊思路（如圖 1 所示）：

圖 1 (a) 中「特征最優對齊損失」包含兩大模塊，全局層面用余弦相似度損失對齊 [CLS] token，保證整體語義一致；局部層面通過聚類提取關鍵模式，將對齊建模為最優傳輸（OT）問題（右側「Optimal Transmission」），用 Sinkhorn 算法實現細粒度匹配。

圖 1 (b) 的「動態集成模型權重策略」則讓多編碼器并行生成對抗樣本，依收斂速度自適應調權 —— 易優化模型權重低、難優化模型權重高，避免偏向單一模型特征。兩者互補，解決了單一維度對齊缺陷，顯著提升對開源及閉源 MLLMs 的攻擊遷移性。

圖 1: FQA-Attack 示意圖

方法

FOA-Attack 以生成「語義對齊、遷移性強」的對抗樣本為核心目標，通過三個協同模塊構建攻擊框架，且所有設計均基于對多模態模型特征機制與對抗遷移性的深度優化。

最后是動態集成模型權重模塊，解決傳統多模型集成「權重均等易偏科」的問題。以 ViT-B/16、ViT-B/32 等 CLIP 變體為替代模型，先定義「學習速度」Si (T)（第 i 個模型第 T 步與 T?1 步的損失比值，比值越小學習越快），再根據學習速度自適應調整權重 —— 學習慢的模型權重更高，避免優化偏向易適配模型。核心權重公式與總損失公式分別為：

實驗效果

開源模型

表 1：在不同開源模型上的攻擊成功率（ASR）與語義相似度（AvgSim）

在 Qwen2.5-VL、LLaVA、Gemma 等開源模型上，FOA-Attack 的攻擊成功率（ASR）和語義相似度（AvgSim）顯著高于 M-Attack、AnyAttack 等方法。

閉源模型

表 2：在不同閉源模型上的攻擊成功率（ASR）和語義相似度（AvgSim）

對 GPT-4o、Claude-3.7、Gemini-2.0 等商業閉源模型，FOA-Attack 表現尤為突出：尤其在 GPT-4o 上，FOA-Attack 的 ASR 達到 75.1%。

推理增強模型

表 3：在不同推理增強模型上的攻擊成功率（ASR）和語義相似度（AvgSim）

即使對 GPT-o3、Claude-3.7-thinking 等推理增強模型（理論上更魯棒），FOA-Attack 仍能突破，這表明推理增強模型的視覺編碼器仍存在脆弱性，FOA-Attack 的「全局 + 局部」對齊策略能有效利用這一漏洞。

可視化

圖 3：原始干凈圖像、對抗圖像和擾動圖像的可視化

結語

FOA-Attack 揭示：通過同時精細對齊全局與局部特征，并在多模型集成中做動態平衡，可以顯著提升目標式對抗樣本對閉源 MLLMs 的遷移性。研究一方面暴露了當前 MLLMs 在視覺編碼階段的脆弱面，另一方面也為防御方向提供了新的思路（例如如何在局部特征層面加固魯棒性）。作者在論文中也討論了效率和計算成本的限制，并給出未來改進方向。

目前，論文與代碼已公開，歡迎感興趣的同學閱讀，復現以及深入討論。

作者介紹

本文作者分別來自新加坡南洋理工大學、阿聯酋 MBZUAI、新加坡 Sea AI Lab 以及美國伊利諾伊大學香檳分校（UIUC）第一作者加小俊為新加坡南洋理工大學博士后。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.