在人工智能快速發(fā)展的今天,模型從一個領(lǐng)域適應(yīng)到另一個領(lǐng)域已成為常態(tài),尤其是無源域適應(yīng)(SFDA)技術(shù)的興起解決了數(shù)據(jù)隱私問題。然而,這種便利背后卻隱藏著不為人知的危險。想象一下,你獲得了一個預(yù)訓(xùn)練模型用于自動駕駛,模型在正常情況下表現(xiàn)完美,但當(dāng)特定路標(biāo)出現(xiàn)時,系統(tǒng)卻突然失控。這種"潛伏炸彈"正是后門攻擊,而更令人擔(dān)憂的是,現(xiàn)有SFDA方法對此幾乎毫無防備。本文揭示了SFDA面臨的安全威脅,并介紹一種新型防御機制SSDA,它能在不犧牲性能的前提下有效消除這些隱形威脅。
![]()
安全暗礁
無源域適應(yīng)(Source-Free Domain Adaptation,簡稱SFDA)技術(shù)在近年來逐漸成為深度學(xué)習(xí)領(lǐng)域的研究熱點。傳統(tǒng)的域適應(yīng)方法要求同時訪問源域和目標(biāo)域的數(shù)據(jù),這在實際應(yīng)用中常常面臨各種限制。比如,企業(yè)間的數(shù)據(jù)共享可能受到法律法規(guī)的限制,或者源數(shù)據(jù)可能包含敏感信息不便分享,再或者源數(shù)據(jù)量過大導(dǎo)致存儲和傳輸成本過高。
SFDA技術(shù)正是為解決這些實際問題而生。它只需要一個預(yù)訓(xùn)練好的源模型,不需要訪問任何源域數(shù)據(jù),就能將知識遷移到目標(biāo)域。這種方法極大地保護了數(shù)據(jù)隱私,也降低了數(shù)據(jù)傳輸和存儲的成本。在SFDA設(shè)置下,目標(biāo)域所有者(通常被稱為"受害者")只能獲取一個預(yù)訓(xùn)練的源模型和自己的目標(biāo)域數(shù)據(jù),而無法獲得源域數(shù)據(jù)或控制源模型的訓(xùn)練過程。
2020年,Liang等人提出的SHOT(Source Hypothesis Transfer)方法,通過偽標(biāo)簽技術(shù)和自監(jiān)督學(xué)習(xí),成功實現(xiàn)了在沒有源數(shù)據(jù)的情況下進行域適應(yīng)。隨后,許多研究如G-SFDA、NRC(Neighborhood Relative Contrastive)等方法也取得了顯著成果。這些方法在解決數(shù)據(jù)隱私問題的同時,也保持了較高的目標(biāo)域分類準(zhǔn)確率。
然而,SFDA的這種"黑盒"特性恰恰成為了安全隱患。源域所有者(可能是潛在的"攻擊者")完全控制著源模型的訓(xùn)練過程,這為后門攻擊提供了絕佳機會。后門攻擊,又稱特洛伊攻擊,是一種特殊的對抗性攻擊方式。攻擊者會在訓(xùn)練數(shù)據(jù)中注入特定的觸發(fā)模式(通常是圖像上的一個小補丁或特定的噪聲模式),使模型在遇到這些觸發(fā)器時產(chǎn)生預(yù)定的錯誤行為,而在正常輸入下表現(xiàn)正常。
在SFDA場景中,這種威脅尤為嚴重。想象一下,一家公司從另一家公司購買了一個預(yù)訓(xùn)練的圖像分類模型,并打算將其適應(yīng)到自己的數(shù)據(jù)集上。如果原始模型中被植入了后門,那么即使經(jīng)過目標(biāo)域的良性訓(xùn)練,這個后門仍然可能保留在最終的模型中。這意味著,攻擊者可以在目標(biāo)域適應(yīng)完成后,通過特定的觸發(fā)輸入操控模型的行為。
![]()
實驗結(jié)果證實了這一擔(dān)憂。在Office-Home數(shù)據(jù)集上的測試表明,當(dāng)源模型被BadNets、Blended或WaNet等后門攻擊方法污染時,即使經(jīng)過目標(biāo)域的完全良性訓(xùn)練,最終的目標(biāo)模型在面對觸發(fā)輸入時的攻擊成功率仍高達99%以上。這意味著,攻擊者可以在源域訓(xùn)練階段植入后門,然后這個后門會順利轉(zhuǎn)移到目標(biāo)域模型中,而目標(biāo)域所有者對此毫不知情。
這種情況下,攻擊者有兩大優(yōu)勢:一是可以完全控制源域訓(xùn)練過程,二是可以在不干擾目標(biāo)域訓(xùn)練的情況下實施攻擊。相比之下,目標(biāo)域所有者處于明顯劣勢:無法訪問源數(shù)據(jù),無法控制源模型訓(xùn)練,甚至在目標(biāo)域也沒有標(biāo)記數(shù)據(jù)可用于防御。這種不對稱的情況使得SFDA場景下的后門防御變得極其困難。
2023年,Ahmed等人的研究首次系統(tǒng)地揭示了這一安全問題。他們在Office、Office-Home和VisDA-C等多個數(shù)據(jù)集上驗證了后門攻擊在SFDA場景中的有效性,發(fā)現(xiàn)無論使用哪種SFDA方法(如SHOT、G-SFDA、NRC或AaD),目標(biāo)模型都無法擺脫后門的影響。這意味著,當(dāng)前幾乎所有的SFDA方法都存在這一安全隱患。
防御迷局
面對SFDA場景中的后門攻擊威脅,現(xiàn)有的防御方法似乎都顯得力不從心。傳統(tǒng)的后門防御技術(shù)大致可分為兩類:基于訓(xùn)練的防御和基于模型后處理的防御。但這兩類方法在SFDA獨特的限制下都面臨著嚴峻挑戰(zhàn)。
基于訓(xùn)練的防御方法,如SPECTRE,通常需要在訓(xùn)練過程中識別并過濾掉可能被污染的數(shù)據(jù),或者采用特殊的訓(xùn)練策略來抑制后門的影響。這類方法的核心是要能夠區(qū)分干凈數(shù)據(jù)和被污染數(shù)據(jù),并利用這種區(qū)分來微調(diào)模型參數(shù)。然而,在SFDA場景中,目標(biāo)域所有者根本無法訪問源域數(shù)據(jù),也就無法知道哪些數(shù)據(jù)可能被污染。更糟糕的是,目標(biāo)域的訓(xùn)練通常是無監(jiān)督的,也就是說,目標(biāo)域所有者甚至沒有自己數(shù)據(jù)的標(biāo)簽。這使得基于訓(xùn)練的防御方法在SFDA中幾乎不可能實施。
基于模型后處理的防御方法,如Neural Cleanse和NAD(Neural Attention Distillation),則主要是在訓(xùn)練完成后對模型進行微調(diào)或修剪,以消除后門的影響。Neural Cleanse嘗試從每個輸出類別反向推導(dǎo)可能的觸發(fā)器,如果找到一個異常小的觸發(fā)器,則認為該類別可能被后門攻擊。NAD則通過知識蒸餾的方式,用干凈模型的注意力圖來指導(dǎo)被污染模型的注意力重新分布。這些方法通常需要一小部分有標(biāo)簽的干凈數(shù)據(jù)來微調(diào)模型。但在SFDA場景中,目標(biāo)域沒有標(biāo)簽數(shù)據(jù),這使得這類方法也無法直接應(yīng)用。
2021年,Zheng等人提出了一種名為CLP(Channel Lipschitzness-based Pruning)的無數(shù)據(jù)后門防御方法。CLP基于這樣一個觀察:在后門模型中,某些通道對后門觸發(fā)器特別敏感,而對正常輸入?yún)s不那么敏感。通過計算每個通道的Lipschitz常數(shù)來衡量其敏感度,CLP可以識別并剪枝那些對后門觸發(fā)器特別敏感的通道,從而消除后門的影響,而無需任何數(shù)據(jù)。
![]()
乍看之下,CLP似乎是SFDA場景下后門防御的理想選擇,因為它不需要源數(shù)據(jù)或標(biāo)簽數(shù)據(jù)。然而,實驗結(jié)果表明,CLP在SFDA場景中的表現(xiàn)并不理想。在Office-Home數(shù)據(jù)集上,當(dāng)應(yīng)用CLP防御BadNets攻擊時,雖然攻擊成功率從99.59%下降到了15.00%,但同時干凈準(zhǔn)確率也從74.21%大幅下降到56.53%。這種顯著的性能下降使得CLP在實際應(yīng)用中難以接受。
CLP在SFDA中表現(xiàn)不佳的主要原因在于其靜態(tài)性質(zhì)。CLP是一種訓(xùn)練后靜態(tài)剪枝方法,它在目標(biāo)域訓(xùn)練完成后應(yīng)用,無法利用目標(biāo)域訓(xùn)練過程和目標(biāo)域數(shù)據(jù)作為防御工具。在SFDA場景中,目標(biāo)域訓(xùn)練是一個重要的防御機會,因為這是目標(biāo)域所有者能夠控制的唯一環(huán)節(jié)。但CLP無法利用這一機會。
此外,CLP的剪枝操作會導(dǎo)致信息損失,尤其是在域適應(yīng)場景中,這種損失可能更為嚴重。域適應(yīng)本身就面臨著源域和目標(biāo)域之間的分布差異問題,如果再加上剪枝導(dǎo)致的信息損失,模型在目標(biāo)域的性能很可能會大打折扣。
2023年,Ahmed等人也驗證了這一點。他們在多個數(shù)據(jù)集上測試了CLP在SFDA場景中的表現(xiàn),發(fā)現(xiàn)無論是在Office-Home、Office還是VisDA-C數(shù)據(jù)集上,CLP都難以同時保持高防御效果和高干凈準(zhǔn)確率。甚至,最壞情況下,CLP會導(dǎo)致干凈準(zhǔn)確率下降到不到20%,使模型幾乎無法使用。
除了CLP,研究人員也嘗試了其他無數(shù)據(jù)防御方法,如Fine-Pruning和ANP(Adversarial Neural Pruning)。但這些方法在SFDA場景中也面臨類似的挑戰(zhàn):要么防御效果不佳,要么會顯著降低模型在目標(biāo)域的性能。
上述分析表明,SFDA場景中的后門防御面臨著獨特的挑戰(zhàn),現(xiàn)有的防御方法都難以有效應(yīng)對。這一困境迫切需要專門針對SFDA設(shè)計的新型后門防御方法,這就是SSDA(Secure Source-Free Domain Adaptation)的提出背景。
SSDA需要解決的核心問題是:如何在不訪問源數(shù)據(jù)、不使用目標(biāo)標(biāo)簽的情況下,既能有效抵御后門攻擊,又能保持模型在目標(biāo)域的高性能?為此,SSDA采用了一種動靜結(jié)合的策略,既包含靜態(tài)的模型壓縮組件,又包含動態(tài)的訓(xùn)練階段防御組件,從而在保持性能的同時提供有效的安全防護。
雙盾護城
![]()
SSDA(安全無源域適應(yīng))防御機制的核心在于它采用了兩個互補的防御組件,形成了一道堅固的"雙重防線"。第一道防線是單次靜態(tài)防御壓縮,第二道防線是知識遷移與動態(tài)通道抑制。這種設(shè)計思路非常巧妙,因為它不僅解決了在無源數(shù)據(jù)環(huán)境下的防御難題,還保證了模型在目標(biāo)域的高性能。
單次靜態(tài)防御壓縮是SSDA的第一個關(guān)鍵組件。在傳統(tǒng)的模型壓縮中,通常會移除某些不重要的通道來減小模型大小。但SSDA采用的壓縮策略完全不同,它不是為了減小模型大小,而是專門針對那些對后門觸發(fā)器特別敏感的通道進行壓縮。這里的"壓縮"具體指的是將這些通道的權(quán)重設(shè)置為零,而不是完全移除這些通道。
那么,如何識別這些敏感通道呢?SSDA使用了譜范數(shù)(Spectral Norm)作為衡量通道敏感度的指標(biāo)。譜范數(shù)是線性變換的一種度量,直觀上講,它表示通道對輸入變化的最大放大程度。研究表明,那些對后門觸發(fā)器特別敏感的通道往往具有較高的譜范數(shù)。
SSDA計算源模型中每一層每個通道的譜范數(shù),然后根據(jù)統(tǒng)計分布確定閾值。超過閾值的通道被認為是潛在的惡意通道,其權(quán)重被設(shè)置為零。這個過程是"單次"的,因為它只在目標(biāo)域訓(xùn)練開始前執(zhí)行一次,是"靜態(tài)"的,因為它不隨訓(xùn)練過程動態(tài)調(diào)整。
這種壓縮方法有效地抑制了后門行為,但也帶來了一個問題:信息損失。由于一些通道被壓縮,模型在目標(biāo)域的性能可能會下降。這正是SSDA需要第二個組件的原因。
知識遷移與動態(tài)通道抑制是SSDA的第二個關(guān)鍵組件,旨在解決第一個組件可能帶來的性能下降問題。這個組件的核心思想是從一個未壓縮的輔助模型中遷移知識到主壓縮模型,同時在訓(xùn)練過程中動態(tài)抑制那些敏感通道的活躍度。
具體來說,SSDA同時訓(xùn)練兩個目標(biāo)模型:一個是從未壓縮源模型初始化的輔助模型,另一個是從壓縮源模型初始化的主模型。輔助模型首先被訓(xùn)練,用于生成目標(biāo)域數(shù)據(jù)的偽標(biāo)簽。這些偽標(biāo)簽隨后被用于訓(xùn)練主模型,實現(xiàn)從輔助模型到主模型的知識遷移。
這種設(shè)計的妙處在于,輔助模型保留了源模型的全部信息,能夠生成更準(zhǔn)確的偽標(biāo)簽,特別是對于良性輸入。通過這些高質(zhì)量的偽標(biāo)簽,主模型能夠在目標(biāo)域獲得良好的性能,彌補了壓縮帶來的信息損失。
但僅有知識遷移還不夠,SSDA還引入了一個基于譜范數(shù)的損失懲罰項,用于在訓(xùn)練過程中動態(tài)抑制敏感通道。這個懲罰項鼓勵模型降低那些譜范數(shù)高的通道的權(quán)重大小,進一步抑制后門行為。
![]()
不過,在訓(xùn)練過程中計算譜范數(shù)是計算密集型的,會顯著增加訓(xùn)練成本。為了解決這個問題,SSDA的作者推導(dǎo)出了譜范數(shù)的一個理論上安全的上界,并用這個上界代替直接計算譜范數(shù)。這個上界是譜范數(shù)的跡(trace),計算簡單且高效。
通過理論分析,證明了這個上界確實是譜范數(shù)的有效近似。使用這個近似值,SSDA能夠在訓(xùn)練過程中高效地計算譜范數(shù)懲罰,實現(xiàn)動態(tài)通道抑制,而不會顯著增加訓(xùn)練成本。
這兩個組件共同構(gòu)成了SSDA的完整防御機制:靜態(tài)壓縮抑制了初始后門通道,動態(tài)抑制確保訓(xùn)練過程中不會重新激活這些通道,而知識遷移則保證了模型在目標(biāo)域的高性能。這種"雙管齊下"的策略使SSDA能夠在不訪問源數(shù)據(jù)、不使用目標(biāo)標(biāo)簽的情況下,既有效抵御后門攻擊,又保持模型在目標(biāo)域的高性能。
練兵檢驗
SSDA的設(shè)計理念看起來很美好,但它在實際應(yīng)用中的表現(xiàn)如何呢?為了全面評估SSDA的有效性,研究者們設(shè)計了一系列詳盡的實驗,覆蓋了多個數(shù)據(jù)集、多種攻擊方法以及多種評估指標(biāo)。
實驗主要使用了三個廣泛應(yīng)用于域適應(yīng)研究的數(shù)據(jù)集:Office、Office-Home和VisDA-C。Office數(shù)據(jù)集包含來自亞馬遜(Amazon)、數(shù)碼單反相機(DSLR)和網(wǎng)絡(luò)攝像頭(Webcam)三個域的圖像,共31個類別。Office-Home數(shù)據(jù)集則更大更復(fù)雜,包含藝術(shù)品(Art)、剪貼畫(Clipart)、產(chǎn)品(Product)和真實世界(Real-World)四個域,共65個類別。而VisDA-C是一個更具挑戰(zhàn)性的大型數(shù)據(jù)集,包含合成圖像和真實圖像兩個域,共12個類別。
研究者們使用了三種主流的后門攻擊方法來評估SSDA的防御性能:BadNets、Blended和WaNet。BadNets是最基礎(chǔ)的后門攻擊方法,它在圖像的固定位置添加一個固定的觸發(fā)模式(例如一個小白方塊)。Blended則更加隱蔽,它將觸發(fā)模式與原始圖像進行混合,使觸發(fā)器不那么明顯。WaNet是一種更為先進的攻擊方法,它通過扭曲變換對圖像進行不可察覺的修改,這種攻擊特別難以防御。
測試結(jié)果顯示,在沒有任何防御措施的情況下,這些攻擊在SFDA場景中都取得了很高的成功率。例如,在Office-Home數(shù)據(jù)集上,從Art域到Clipart域的適應(yīng)過程中,BadNets、Blended和WaNet的攻擊成功率分別高達74.23%、95.03%和93.10%。這意味著,當(dāng)圖像包含觸發(fā)器時,模型在這些比例的情況下會按照攻擊者的意圖產(chǎn)生錯誤輸出。
![]()
而應(yīng)用SSDA防御后,這些攻擊的成功率大幅下降。在相同的設(shè)置下,BadNets、Blended和WaNet的攻擊成功率分別降至1.56%、1.72%和4.31%。這表明SSDA幾乎完全消除了這些攻擊的影響。
更重要的是,SSDA在提供強大防御的同時,也保持了模型在目標(biāo)域的高性能。在上述設(shè)置中,SSDA防御后的模型在Clipart域上的準(zhǔn)確率為55.60%、55.88%和56.75%,與未防御模型的準(zhǔn)確率55.60%、55.99%和56.70%幾乎相同。這表明SSDA幾乎沒有犧牲模型的正常性能。
在Office數(shù)據(jù)集上,SSDA同樣表現(xiàn)出色。例如,從Amazon域到DSLR域的適應(yīng)過程中,BadNets攻擊的成功率從99.80%降至2.61%,而模型準(zhǔn)確率保持在92.37%不變。這再次驗證了SSDA的有效性和穩(wěn)健性。
研究者們還特別測試了SSDA在良性源模型(沒有后門攻擊)情況下的表現(xiàn)。結(jié)果顯示,無論源模型是良性還是惡意的,SSDA都能保持與基線SFDA方法相當(dāng)?shù)男阅堋@纾贠ffice-Home數(shù)據(jù)集上,從Art域到Clipart域的適應(yīng)過程中,SFDA和SSDA在良性情況下的準(zhǔn)確率分別為56.66%和56.56%,幾乎沒有差別。這說明SSDA是一種"萬無一失"的方法,即使在不確定源模型是否包含后門的情況下,也可以安全地應(yīng)用它。
SSDA還與其他最新的SFDA方法進行了比較,如SHOT、G-SFDA、NRC和AaD。結(jié)果顯示,這些方法都容易受到后門攻擊的影響,而SSDA提供了最強的防御,同時保持了與這些方法相當(dāng)?shù)男阅堋@纾贠ffice-Home數(shù)據(jù)集上,SHOT、G-SFDA、NRC和AaD在面對BadNets攻擊時的攻擊成功率分別為74.23%、97.16%、60.69%和78.95%,而SSDA將這一比率降至1.56%。
為了更深入地理解SSDA的工作原理,研究者們還進行了一系列消融實驗,分析了每個組件的貢獻。結(jié)果顯示,單次靜態(tài)防御壓縮能夠顯著降低攻擊成功率,但會導(dǎo)致準(zhǔn)確率大幅下降。例如,在從Clipart域到Art域的適應(yīng)過程中,僅使用壓縮組件時,攻擊成功率從96.33%降至66.09%,但準(zhǔn)確率也從67.37%降至16.73%。
而加入知識遷移后,準(zhǔn)確率大幅回升至67.66%,同時攻擊成功率進一步降至47.55%。最后,加入譜范數(shù)懲罰后,攻擊成功率進一步降至14.34%,而準(zhǔn)確率略有提升至68.03%。這表明,SSDA的每個組件都發(fā)揮著關(guān)鍵作用,它們協(xié)同工作,才能實現(xiàn)高防御性和高性能的平衡。
此外,研究者們還研究了譜范數(shù)懲罰與攻擊成功率之間的關(guān)系。他們發(fā)現(xiàn),隨著譜范數(shù)的降低,攻擊成功率也呈現(xiàn)明顯的下降趨勢。這進一步證明了SSDA的設(shè)計理念是有效的:通過抑制高譜范數(shù)通道,確實可以有效降低后門攻擊的成功率。
綜合來看,SSDA在多個數(shù)據(jù)集、多種攻擊方法下都展現(xiàn)出了卓越的防御性能和穩(wěn)定的正常性能,證明它是一種實用且有效的安全域適應(yīng)方法。特別值得一提的是,SSDA是第一個專門針對SFDA場景設(shè)計的后門防御方法,填補了這一領(lǐng)域的研究空白,為無源域適應(yīng)的安全應(yīng)用提供了可靠保障。
參考資料
Ahmed, S., Arafat, A. A., Rizve, M. N., Hossain, R., Guo, Z., &; Rakin, A. S. (2023). SSDA: Secure Source-Free Domain Adaptation. ICCV 2023.
Liang, J., Hu, D., &; Feng, J. (2020). Do We Really Need to Access the Source Data? Source Hypothesis Transfer for Unsupervised Domain Adaptation.
Xie, C., Huang, K., Chen, P. Y., &; Li, B. (2019). DBA: Distributed Backdoor Attacks against Federated Learning.
Chen, Y., Li, J., Xiao, H., Jin, X., Yan, S., &; Feng, J. (2017). Dual Path Networks.
Wang, R., Wang, B., Du, Y., &; Zeng, Y. (2022). Backdoor Attacks on the DNN Interpretation System.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.