![]()
Anthropic 發布調查報告,稱發現 DeepSeek、月之暗面(Moonshot/Kimi)和 MiniMax 三家中國 AI 實驗室,通過大規模"蒸餾攻擊"非法提取 Claude 模型的能力來訓練自家模型。
三家公司共創建了約2.4萬個虛假賬戶,與 Claude 產生超過1600萬次對話交互。所謂"蒸餾",就是用強模型的輸出來訓練弱模型——相當于讓學生抄優等生的作業來提高成績。
這種方法本身是合法的訓練技巧,各大 AI 公司也用它來制作自家模型的輕量版本,但未經授權對競爭對手的模型進行蒸餾則違反了服務條款。三家公司的操作手法類似:通過代理服務繞過 Anthropic 對中國的訪問限制,用大量虛假賬戶分散流量以躲避檢測。
其中 MiniMax 規模最大,產生超過1300萬次交互,主要提取編程和工具使用能力;月之暗面超過340萬次,瞄準智能體推理和計算機視覺;DeepSeek 雖然量級最小(15萬次),但手法最值得關注——他們讓 Claude 反向“復述”自己的推理過程來生成思維鏈訓練數據,還讓 Claude 生成政治敏感問題的"安全回答",疑似用于訓練自家模型的審查回避能力。
Anthropic 表示已通過 IP 地址、請求元數據等信息將攻擊溯源到具體實驗室甚至具體研究人員,并稱這一發現說明中國 AI 公司的快速進步并非完全靠自主創新,也在一定程度上依賴對美國模型能力的提取。
Anthropic 報告原文:
檢測與防范蒸餾攻擊
2026年2月23日
我們已識別出三家人工智能實驗室——DeepSeek、Moonshot 和 MiniMax——發起的工業規模行動,試圖通過非法方式提取 Claude 的能力,以提升它們自身的模型。這些實驗室通過大約24,000個欺詐賬戶,與 Claude 進行了超過1600萬次交互,違反了我們的服務條款以及區域訪問限制。
這些實驗室使用了一種名為“蒸餾”(distillation)的技術,即讓一個能力較弱的模型學習更強模型的輸出。蒸餾是一種被廣泛使用且合法的訓練方法。例如,前沿 AI 實驗室通常會對自家模型進行蒸餾,以便為客戶創建更小、更便宜的版本。但蒸餾也可能被用于非法目的:競爭對手可以用它在遠低于自主研發所需時間與成本的情況下,獲取強大的能力。
這些行動正在迅速升級,強度和復雜性不斷提高。采取行動的窗口期十分有限,這一威脅也早已超出任何單一公司或地區的范疇。解決這一問題需要行業參與者、政策制定者以及全球 AI 社區之間迅速而協調的合作。
為什么蒸餾問題至關重要
通過非法蒸餾得到的模型缺乏必要的安全防護,從而帶來重大國家安全風險。Anthropic 及其他美國公司構建的系統,會防止國家或非國家行為體利用 AI 開發生物武器或實施惡意網絡活動等。通過非法蒸餾構建的模型,很可能無法保留這些安全防護措施,這意味著危險能力可能在大量安全機制被剝離的情況下擴散。
對美國模型進行蒸餾的外國實驗室,隨后可能將這些缺乏防護的能力輸入到軍事、情報和監控系統中——使他國政府能夠將前沿 AI 用于進攻性網絡行動、虛假信息宣傳和大規模監控。如果蒸餾模型被開源,這種風險將成倍放大,因為這些能力會在任何單一政府控制之外自由傳播。
蒸餾攻擊與出口管制
Anthropic 一直支持出口管制,以幫助維持美國在 AI 領域的領先地位。蒸餾攻擊削弱了這些管制措施,因為它允許外國實驗室通過其他方式縮小出口管制試圖保留的競爭優勢。
在缺乏對這些攻擊可見性的情況下,這些實驗室看似迅速的技術進步,往往被錯誤解讀為出口管制無效、可以通過創新繞過。事實上,這些進步在很大程度上依賴于從美國模型中提取的能力,而要大規模執行這種提取,則需要先進芯片的支持。因此,蒸餾攻擊反而強化了出口管制的合理性:限制芯片獲取不僅限制直接模型訓練,也限制了非法蒸餾的規模。
我們的發現
下文詳述的三起蒸餾行動采用了相似的操作模式:使用欺詐賬戶和代理服務,大規模訪問 Claude,同時規避檢測。其提示語的規模、結構和集中方向均明顯不同于正常使用模式,反映出其目的是刻意提取能力,而非合法使用。
我們通過 IP 地址關聯、請求元數據、基礎設施指標,以及在某些情況下來自行業合作伙伴的佐證,高置信度地將每次行動歸因于特定實驗室。這些行動都集中針對 Claude 最具差異化的能力:代理式推理、工具使用和編程。
DeepSeek
規模:超過15萬次交互
該行動目標包括:
各類任務中的推理能力
基于評分標準(rubric)的打分任務,使 Claude 充當強化學習的獎勵模型
生成“審查安全”的敏感問題替代表述
DeepSeek 在多個賬戶之間生成同步流量。相同的模式、共享支付方式以及協調的時間安排表明其進行了“負載均衡”,以提高吞吐量、增強可靠性并規避檢測。
一個顯著手法是,提示 Claude 想象并逐步闡述某個已完成回答背后的內部推理過程——實質上是在大規模生成思維鏈(chain-of-thought)訓練數據。我們還觀察到任務要求 Claude 為敏感問題生成“審查安全”的替代表述,很可能是為了訓練 DeepSeek 自身模型在這些話題上進行回避引導。通過請求元數據分析,我們能夠將這些賬戶追溯到該實驗室的具體研究人員。
Moonshot AI
規模:超過340萬次交互
目標包括:
代理式推理與工具使用
編程與數據分析
計算機使用代理開發
計算機視覺
Moonshot(Kimi 模型)使用了數百個欺詐賬戶,橫跨多種訪問路徑。多樣化的賬戶類型使該行動更難被識別為協調操作。我們通過請求元數據進行歸因,其信息與 Moonshot 高級員工的公開資料相匹配。在后期階段,Moonshot 采用了更具針對性的方式,試圖提取并重建 Claude 的推理軌跡。
MiniMax
規模:超過1300萬次交互
目標包括:
代理式編程
工具使用與編排
我們通過請求元數據和基礎設施指標將該行動歸因于 MiniMax,并結合其公開產品路線圖驗證時間節點。我們在 MiniMax 發布其訓練模型之前,就在其行動仍在進行時檢測到了該蒸餾行為,這為我們提供了前所未有的視角,觀察蒸餾攻擊從數據生成到模型發布的完整生命周期。
我們在 MiniMax 行動期間發布新模型時,對方在24小時內迅速調整策略,將近一半流量轉向捕捉我們最新系統的能力。
蒸餾方如何獲取前沿模型
出于國家安全考慮,Anthropic 目前不向中國或其境外子公司提供 Claude 的商業訪問。
為繞過這一限制,這些實驗室使用商業代理服務,以規模化方式轉售 Claude 及其他前沿模型的訪問權限。這些服務運行所謂的“九頭蛇集群”(hydra cluster)架構:由大量欺詐賬戶構成的龐大網絡,將流量分散到我們的 API 以及第三方云平臺。該網絡范圍廣泛,沒有單點故障。一個賬戶被封禁后,新的賬戶立即頂替。在一個案例中,單一代理網絡同時管理超過20,000個欺詐賬戶,并將蒸餾流量與其他正常客戶請求混合,以增加檢測難度。
一旦獲得訪問權限,這些實驗室就會生成大量精心設計的提示語,以提取特定能力。目標要么是收集高質量回答用于直接模型訓練,要么是生成數萬條獨特任務,用于運行強化學習。
區別蒸餾攻擊與正常使用的關鍵在于模式。例如以下提示語(與我們觀察到的大規模重復提示近似)單獨看似無害:
“你是一名專家級數據分析師,結合統計嚴謹性與深厚領域知識。你的目標是提供基于真實數據、具備完整透明推理過程的數據驅動洞察,而非摘要或可視化。”
但當該提示的變體在數百個協調賬戶間被重復數萬次,并集中針對同一狹窄能力時,其模式便顯而易見:在少數能力領域集中爆發的巨大流量、高度重復的結構,以及內容與 AI 模型訓練核心價值的高度映射——這正是蒸餾攻擊的典型特征。
我們的應對措施
我們持續大力投入防御機制,使蒸餾攻擊更難實施、更易識別,包括:
檢測機制:構建多個分類器與行為指紋系統,用于識別 API 流量中的蒸餾攻擊模式,包括識別用于構建推理訓練數據的思維鏈誘導行為,以及跨大量賬戶的協調活動。
情報共享:與其他 AI 實驗室、云服務提供商及相關機構共享技術指標,形成對蒸餾生態的更全面認知。
訪問控制:加強對教育賬戶、安全研究項目及創業組織的驗證流程——這些是欺詐賬戶最常利用的渠道。
反制措施:開發產品級、API 級及模型級防護機制,在不影響合法用戶體驗的前提下,降低模型輸出對非法蒸餾的有效性。
但任何一家公司都無法獨自解決這一問題。正如前文所述,這種規模的蒸餾攻擊需要 AI 行業、云服務提供商及政策制定者之間的協調響應。我們發布此文,是為了讓所有關心這一結果的人都能看到相關證據。
相關新聞
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.