![]()
本文第一作者 / 通訊作者趙正宇來自西安交通大學,共同第一作者張焓韡、李仞玨分別來自德國薩爾大學、中科工業(yè)人工智能研究院。其他合作者分別來自法國馬賽中央理工、法國 INRIA 國家信息與自動化研究所、德國 CISPA 亥姆霍茲信息安全中心、清華大學、武漢大學、西安交通大學。
對抗樣本(adversarial examples)的遷移性(transferability)—— 在某個模型上生成的對抗樣本能夠同樣誤導其他未知模型 —— 被認為是威脅現(xiàn)實黑盒深度學習系統(tǒng)安全的核心因素。盡管現(xiàn)有研究已提出復雜多樣的遷移攻擊方法,卻仍缺乏系統(tǒng)且公平的方法對比分析:(1)針對攻擊遷移性,未采用公平超參設(shè)置的同類攻擊對比分析;(2)針對攻擊隱蔽性,缺乏多樣指標。
為了解決上述問題,本文依據(jù)通用機器學習全周期階段,將遷移攻擊方法系統(tǒng)性劃分為五大類,并首次針對 23 種代表性攻擊與 11 種代表性防御方法(包括針對遷移的防御與現(xiàn)實世界的視覺系統(tǒng) API),在 ImageNet 數(shù)據(jù)集上開展對抗遷移性綜合評估,并通過大規(guī)模用戶實驗評估對抗隱蔽性。
本文證實上述評估缺陷確實導致了理解盲區(qū)甚至誤導性結(jié)論,而解決這些缺陷后帶來一系列新見解,例如:(1)早期攻擊方法 DI 性能反而超越所有后續(xù)同類攻擊;(2) 原本聲稱白盒防御方法 DiffPure 卻極易被(黑盒)遷移方法攻破;(3)幾乎所有攻擊方法在提升遷移性的同時,實則犧牲了(通過多樣化指標量化的)攻擊隱蔽性。
![]()
- 論文題目:Revisiting Transferable Adversarial Images: Systemization, Evaluation, and New Insights
- 接收期刊:TPAMI 2025
- 預印本鏈接:https://arxiv.org/abs/2310.11850
- 代碼鏈接:https://github.com/ZhengyuZhao/TransferAttackEval
研究現(xiàn)狀
對抗樣本的遷移性是研究深度學習系統(tǒng)魯棒性的重要課題。在真實世界中,攻擊者往往無法訪問目標模型的內(nèi)部參數(shù)或訓練集(黑盒情形)。攻擊在一個 / 一類模型上生成后能否在另一個未知模型上保持效力(即攻擊遷移性),直接決定了攻擊的實際威脅水平與防御的有效性。
當前相關(guān)研究存在兩個長期被忽略但是影響深遠的問題:
- 攻擊遷移性(transferability)評估缺乏系統(tǒng)的一對一比較與公平的超參數(shù)設(shè)定:不同方法常在不同或不對等的超參數(shù)下對比,導致結(jié)論不可比或誤導性強。
- 攻擊隱蔽性(stealthiness)幾乎沒有被系統(tǒng)評估: 許多工作只報告 Lp 約束下的成功率,而忽略了視覺 / 感知質(zhì)量和攻擊可溯源特性的差異;也就是說,攻擊「看上去」是否真實不可察覺并未被充分衡量。
這種不嚴格的比較與不完整的度量導致使得某些方法被高估或低估,進而誤導防御設(shè)計與研究方向。
![]()
創(chuàng)新發(fā)現(xiàn)
依托前文所建立的評估框架,我們得以從實驗結(jié)果中更清晰地分析對抗魯棒性的內(nèi)在因素。以下部分將概述主要發(fā)現(xiàn)與啟發(fā)性結(jié)論:
1.在公平的超參數(shù)設(shè)定下,早期方法 DI 竟優(yōu)于后續(xù)眾多所謂改進方法:許多后來被認為更強的遷移攻擊,實則得益于更有利的實驗設(shè)定。一旦把超參數(shù)公平化,DI 類的早期方法便會遙遙領(lǐng)先。因此,我們需要公平對比來避免誤導性結(jié)論。這不僅關(guān)系到學術(shù)層面的研究,更關(guān)系到實際系統(tǒng)對抗威脅的判斷與防御優(yōu)先級的設(shè)定。
2.擴散(diffusion)類防御方法依賴 “虛假安全感”:基于擴散原理進行去噪的防御方法雖然聲稱在白盒或某些自適應(yīng)攻擊下表現(xiàn)很強,但黑盒(遷移)攻擊反而可以很大程度上繞過這些防御。因此,此類防御方法只是由于評估不完善帶來的 “虛假安全感”
3.相同 Lp 約束下,不同攻擊在隱蔽性上有巨大差異,且隱蔽性與遷移性之間呈負相關(guān):即便所有攻擊都受同一 Lp 限制,在視覺感知度量(PSNR/SSIM/LPIPS 等)上依然差距很大。因此,除了常用 Lp 約束外,需要同時報告遷移性與多維度隱蔽性指標,以便合理權(quán)衡攻擊遷移性與隱蔽性。
具體評估建議與攻防設(shè)計參考如下:
![]()
評估框架與結(jié)果
本文依據(jù)通用機器學習全周期階段,將遷移攻擊方法系統(tǒng)性劃分為五大類,如下圖所示:
![]()
本文涉及了 23 種代表性攻擊與 11 種代表性防御方法,如下表所示:
![]()
![]()
針對攻擊遷移性,本文從兩個維度入手修正與完善現(xiàn)有評估基準:(1)引入完整的遷移攻擊方法分類,并進行公平的類內(nèi)(intra-category)比較;(2)從 “攻擊溯源(attack traceback)” 角度設(shè)計隱蔽性評估。更具體地說,本文拋棄了將不同類攻擊方法直接對比的傳統(tǒng)策略,而是對同類攻擊進行一對一、超參數(shù)公平化的對比實驗:統(tǒng)一攻擊強度約束(相同 Lp 限制)、統(tǒng)一優(yōu)化 / 迭代預算,并在同一組目標模型 / 防御上逐項比較。
![]()
針對攻擊隱蔽性,本工作不再僅依靠單一 Lp 值來進行衡量,而是引入多樣化的感知質(zhì)量指標(例如常用的 PSNR/SSIM/LPIPS 等)并結(jié)合更細粒度的隱蔽性特征。另外,本文創(chuàng)新性地引入 “攻擊溯源” 視角,分析攻擊是如何產(chǎn)生可見 / 可追溯的擾動(例如是否集中于圖像某些高頻區(qū)域、是否具有結(jié)構(gòu)化模式、擾動是否容易被現(xiàn)有檢測器或去噪機制識別)。
![]()
![]()
![]()
![]()
未來展望
我們呼吁研究界在對比任何(攻防)方法時務(wù)必采用一對一、超參數(shù)合理的公平設(shè)計;報告遷移性時同時報告多種感知 / 隱蔽性指標(不僅是 Lp),并分析攻擊的可追溯性特征;在評估防御有效性時,必須納入可遷移黑盒攻擊的考驗,尤其是對擴散 / 去噪類防御要采用更全面的測試;公開代碼、超參數(shù)與評估腳本,以便社區(qū)復現(xiàn)與累積真實進展。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.