網易首頁 > 網易號 > 正文申請入駐

新型后門攻擊直指Scaffold,NTU聯手0G Labs揭示中心化訓練漏洞

2025-08-11 15:55:20　來源: 機器之心Pro

北京舉報

分享至

機器之心發布

機器之心編輯部

通過使用控制變元（control variate）來校準每個客戶端的本地梯度，Scaffold 已被廣泛認為是緩解聯邦學習中數據異質性影響的一種強大方案。但盡管 Scaffold 實現了顯著的性能提升，這種優越性是以增加安全漏洞為代價的。

本文中，NTU、0G Labs等機構提出了BadSFL，這是首個針對 Scaffold 的后門攻擊方法，它能夠將原本良性的客戶端轉化為攻擊的幫兇以放大攻擊效果。

BadSFL 的核心思想是在不引人注意的情況下，篡改控制變元，從而巧妙地引導良性客戶端的本地梯度更新朝著攻擊者設定的「中毒」方向前進，有效地使它們在無意間成為協助者，顯著增強了后門的持久性。

另外，BadSFL 利用一個經過生成對抗網絡（GAN）增強的數據投毒策略，豐富了攻擊者的數據集，在保持對正常樣本和后門樣本都具有高精度識別能力的同時，保持隱蔽性。

大量實驗證明，BadSFL 在攻擊持續性方面表現出色，即使在停止惡意模型注入之后，仍能維持超過 60 輪的攻擊效果——比現有基準方法持續時間長達三倍。

該論文已經入選 ICCV 2025。

論文標題：Mind the Cost of Scaffold!Benign Clients May Even Become Accomplices of Backdoor Attack
論文鏈接：https://arxiv.org/abs/2411.16167

引言

聯邦學習（Federated Learning，簡稱 FL）在保護客戶端數據隱私的同時，實現了分布式模型訓練。然而，FL 模型的有效性在很大程度上取決于訓練數據在各客戶端之間的分布情況。通常存在以下兩種場景：1）IID 數據：訓練數據在各客戶端之間均勻分布；2）非 IID 數據：更符合現實的數據分布情況，即各客戶端的數據特征存在顯著差異。在 IID 場景下，已有工作FedAvg脫穎而出，它通過聚合來自客戶端的模型參數，設定了服務器端模型更新的標準。然而，在非 IID 場景中，其性能會顯著下降。由于數據異質性，不同客戶端的更新方向存在偏移，最終導致模型收斂效果變差。

為應對這一挑戰，Scaffold作為一種穩健的聯邦學習（FL）方法被提出，旨在通過基于控制變元（control variates）的校正機制來減緩客戶端更新的偏移，從而提升在非 IID 場景下的模型收斂性。控制變元本質上是對客戶端本地梯度與全局梯度之間差異的估計，它有助于將本地更新方向與全局優化目標對齊。Scaffold 能夠減少由于數據異質性引起的更新方差，使其在客戶端擁有多樣化數據分布的場景中表現尤為出色。

然而，Scaffold 聯邦學習（SFL）不僅改變了 FL 模型的收斂方式，也影響了其對抗惡意操控的魯棒性。具體而言，聯邦學習中的惡意客戶端可以利用模型更新機制注入后門行為，將隱藏的異常行為植入全局模型中。盡管已有大量研究關注 FL 中的后門攻擊，但大多數現有工作主要聚焦于 IID 場景，在這些場景中，攻擊者對數據集分布具有完全認知，因此可以輕松構造中毒更新。相比之下，非 IID 數據分布引入了額外的限制，使得攻擊者更難在不顯著降低整體性能的前提下，將中毒模型與全局模型對齊。雖然近期已有研究開始探索非 IID 聯邦學習中的后門攻擊，但這些研究在很大程度上忽視了 SFL 引入的獨特安全隱患。

因此，本論文旨在探討的問題是：「SFL 的新機制（即用于校正更新偏移的控制變元）是否可能引入新的安全威脅，并在非 IID 場景中無意間為后門攻擊提供便利？」

我們對上述問題的回答是肯定的。我們的新發現是：Scaffold 對控制變元的依賴引入了一種新的攻擊面—— 其原本用于通過將本地更新與全局目標對齊以穩定訓練過程的校正機制，實際上可能在無意中放大了惡意更新的影響。更關鍵的是，這一機制允許攻擊者直接影響控制變元本身，從而有效地將良性客戶端「招募」為協助實施攻擊的幫兇。

由于所有客戶端在更新過程中都會使用控制變元來調整本地梯度，因此一旦控制變元被篡改，就可以在不易察覺的情況下引導這些誠實客戶端的梯度朝著攻擊者設定的「中毒方向」演化。這種方式極大地增強了后門攻擊的傳播范圍，使得 Scaffold 比沒有類似校正機制的標準 FL 方法（如 FedAvg）更容易受到復雜攻擊的影響。

為了利用上述發現，我們提出了一種專門針對 Scaffold 聯邦學習（SFL）的新型后門攻擊方法 ——BadSFL，該方法能夠在不顯著破壞模型對正常樣本推理性能的前提下，成功地將后門功能植入全局模型。

與以往的攻擊方法不同，BadSFL 利用了 Scaffold 的校正機制，不僅增強了后門的隱蔽性，還提升了其持久性，從而揭示了 SFL 方法中的一個關鍵漏洞。BadSFL 的運作流程包括如下：

GAN 補全數據知識：由于攻擊者只能部分掌握 FL 系統中的數據分布信息，他通過使用生成對抗網絡（GAN）生成屬于其他客戶端的數據樣本來補充自身數據集，從而模擬出對整體數據分布的全面認知。在此補充數據集上進行后門訓練后，攻擊者可以獲得在后門任務和正常任務上都表現良好的后門模型。
隱蔽后門觸發器設計：攻擊者選擇某個類別中的特征作為后門觸發器，從而保持攻擊的隱蔽性。
操控全局控制變元：攻擊者利用全局控制變元作為參考，用于預測全局模型的收斂方向。這一優化策略顯著增強了后門功能在全局模型中的持久性

聯邦學習中的非 IID 場景

在聯邦學習（FL）中，非 IID是指客戶端之間的數據分布存在顯著差異。在非 IID 場景下，這種本地數據分布的不一致會導致本地最優解與全局最優解之間存在偏差。這種偏差會引發本地模型更新的漂移現象，即本地模型傾向于朝著各自的本地最優解前進，而這些本地最優解可能與全局最優解相距甚遠。因此，將這些本地模型進行平均時，得到的全局模型可能會偏離真實的全局最優解，尤其是在存在大量本地訓練輪次的情況下。

如下圖 1 所示，在 IID 場景下，全局最優解與本地最優解相對一致，而在非 IID 場景下，全局最優解可能與單個本地最優解相距較遠，這一現象被稱為客戶端漂移（client-drift），從而導致 FL 訓練過程中的收斂變慢且不穩定。

為了解決上述挑戰，學術界已經提出了多種聯邦學習（FL）算法，其中Scaffold是最為實用的解決方案。它通過在服務器端和客戶端同時使用控制變元（即方差縮減技術）來應對客戶端漂移問題。這些控制變元能夠估計全局模型與本地客戶端模型的更新方向，并根據漂移對本地更新進行校正，從而減少本地最優解與全局最優解之間的偏差（見算法 1）。在本文中，我們主要聚焦于針對 SFL（Scaffold Federated Learning）的后門攻擊設計。

后門攻擊在 SFL 中的挑戰

在SFL（Scaffold Federated Learning）中實施后門攻擊面臨以下挑戰：

知識有限。在非 IID 場景中，攻擊者對各客戶端數據分布缺乏了解，這是主要挑戰之一。與 IID 場景不同，在 IID 中對數據集有集中化的認知，有利于攻擊者操控；而非 IID 場景涉及分散且多樣化的數據分布。這會導致以下三個問題：

直接的后門策略可能會導致良性樣本上的性能大幅下降，從而使全局模型被拒絕；
數據分布的差異性加劇了本地模型與全局模型之間的差距，使得惡意模型更容易被檢測到；
將中毒模型與全局模型平均聚合會降低其在主要任務上的性能。

控制變元。在 SFL 中，控制變元（記為 c_i）用于糾正客戶端漂移，使本地模型與全局模型對齊。如果攻擊者嚴格遵守協議，在植入觸發器的過程中使用 c_i 對惡意模型進行校正，攻擊效果可能會減弱。相反，如果攻擊者選擇不當篡改 c_i 并將惡意的 c 上傳至服務器，則可能導致全局模型被破壞。
后門災難性遺忘。災難性遺忘是指神經網絡在學習新任務時忘記先前已學任務的現象。這會導致后門功能隨著時間推移而失效。如果攻擊者停止上傳惡意更新，后門功能最終可能會被良性更新「抹去」。

別器 D，并對生成器 G 進行新一輪優化訓練，以引導其生成更加真實、接近其他客戶端數據的偽樣本。最終，這些高質量的合成樣本會被整合進攻擊者原始的非 IID 數據集，從而有效地補充了額外的數據類別。

實驗結果

本文在 MNIST、CIFAR-10 以及 CIFAR-100 三個數據集上對 BadSFL 的有效性進行了實驗評估。實驗比較了 4 個其它的已知后門攻擊，包括Block-box Attack、Neurotoxin、Irreversible Backdoor Attach (IBA) 和 3DFed。下表 1 總結了細節的實驗設置。

從圖 6a 到圖 6f，我們展示了在 CIFAR-10 和 CIFAR-100 數據集上與基準方法的攻擊對比。可以明顯看出，BadSFL 在攻擊有效性和持久性方面都優于基準攻擊方法。

具體來說，在攻擊者仍參與訓練過程、執行后門訓練并向服務器上傳惡意更新的前 10 輪中，BadSFL 在所有類型的后門攻擊中都實現了超過 80% 的后門任務準確率。同時，BadSFL 保持主要任務的準確率在 60% 左右（見下圖 5b）。此外，即使攻擊者在第 40 輪退出訓練過程，后續輪次中的良性客戶端仍會繼續上傳正常更新，這可能會影響攻擊者在之前攻擊輪次中的中毒更新，從而逐漸抹去后門功能。

盡管如此，BadSFL 仍能保證后門功能的持久性，在整個 100 輪 SFL 訓練中后門任務準確率始終保持在 90% 以上，這比兩種基準攻擊的生命周期長3 倍（基準攻擊的后門任務準確率在第 60 輪后降至 50% 以下）。橫向對比不同類型的后門觸發器注入效果（圖 6a、6b 和 6c），可以發現基于特征的觸發器表現最佳，得益于其隱蔽性，它不直接篡改圖像，因此其更新與良性更新沖突的可能性較小。

圖 6g 和圖 6h 展示了在MNIST 數據集上獲得的實驗結果。類似地，BadSFL 也優于其他基準攻擊方法，在后門任務準確率和主要任務準確率上均超過 85%。當惡意更新在第 40 輪停止注入后，在標簽翻轉攻擊中，兩種基準攻擊的后門任務準確率在 10 輪內災難性地下降到 40% 以下，而 BadSFL 在后續輪次中能在全局模型中保持長達 5 倍更持久的后門功能。在觸發器模式攻擊中，BadSFL 也在全局模型中注入了更高效的后門功能，其準確率比基準方法高出 10%。

總結

本文提出了BadSFL，這是一種專為使用 Scaffold 聚合算法的非 IID 聯邦學習環境設計的新型后門攻擊。通過采用基于 GAN 的數據增強技術并利用 Scaffold 的控制變元，BadSFL 在攻擊有效性、隱蔽性和持久性方面均優于現有方法。我們在多個基準數據集上的實驗結果表明，該攻擊具有顯著的有效性，且后門功能的持續時間遠超已有方法。未來，我們希望研究人員能夠設計出更穩健的防御機制，

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.