網易首頁 > 網易號 > 正文申請入駐

南京大學聯合美團、上交破解主流視頻生成模型安全漏洞

2025-12-25 15:23:57　來源: 機器之心Pro

河北舉報

分享至

來自南京大學 PRLab 的王淞平、錢儒凡，在單彩峰教授與呂月明助理教授的聯合指導下，提出首個面向圖生視頻（I2V）模型的多模態自進化越獄攻擊框架 RunawayEvil。本研究聯合了美團、上海交通大學等多家頂尖機構，共同完成了首個支持多模態協同與自主進化的 I2V 越獄攻擊框架的研發。

RunawayEvil 創新性采用「策略 - 戰術 - 行動」核心范式，精準破解傳統單一模態、靜態攻擊在 I2V 場景下效果受限的行業痛點，為 I2V 模型的安全漏洞分析提供了高效可靠的工具，為構建更穩健、安全的視頻生成系統提供助力。

論文標題：RunawayEvil: Jailbreaking the Image-to-Video Generative Models
項目地址：https://xzxg001.github.io/RunawayEvil/
論文地址：https://arxiv.org/pdf/2512.06674
代碼地址：https://github.com/DeepSota/RunawayEvil

行業痛點：

圖生視頻模型安全研究的三大核心缺口

圖生視頻（I2V）是融合圖像視覺約束與文本語義引導，生成時空連貫、高保真動態內容的核心多模態技術，為內容創作、商業廣告等領域提供高效創意支撐。然而，其安全防護體系是脆弱的，尚未跟上技術落地步伐，成為制約行業穩健發展的關鍵瓶頸。

現有研究雖通過各類越獄方法揭示視覺生成模型的內在漏洞，為構建更穩健的生成系統提供了支撐，但針對 I2V 模型的安全研究仍存在顯著空白。研究團隊發現，當前存在三大核心缺口，嚴重阻礙了對其潛在風險的系統性探究與有效防御：

1. 單模態攻擊的天然局限性

現有越獄研究多聚焦于文本到圖像（T2I）、文本到視頻（T2V）等單模態系統，僅通過擾動單一輸入模態實施攻擊。而 I2V 模型依賴文本 - 圖像跨模態協同工作機制，單一模態攻擊無法利用其內在的模態交互特性，難以突破集成化的多模態安全防護，導致攻擊成功率普遍低，無法有效暴露模型真實漏洞。

2. 靜態攻擊模式的適應性缺失

傳統方法多采用人工構造惡意提示或固定攻擊模板，缺乏動態調整能力。I2V 模型的輸入具有極強的多樣性（自然圖像 / 合成圖像、不同語義文本等），靜態攻擊模式無法根據輸入特性定制策略，既限制了攻擊策略的覆蓋范圍，也難以應對模型動態的安全防御機制，導致實際應用場景中的攻擊效果大幅衰減。

3. 多模態與維度升級的雙重挑戰

視覺生成模型的安全研究長期聚焦于文本到圖像（T2I）單模態場景，而圖生視頻（I2V）技術的興起，正帶來多模態協同與維度升級的雙重核心挑戰。文本 - 圖像輸入的跨模態協同特性、圖像到視頻的時空復雜度跨越，共同構成制約其安全可控落地的關鍵瓶頸。

這些痛點導致 I2V 模型在商業化落地過程中面臨潛在安全隱患，亟需專門針對其多模態特性的安全評估工具，為技術迭代與風險防控提供支撐。

核心成果：

首個 I2V「自進化」越獄框架是如何煉成的？

如果把一次 I2V（圖生視頻）越獄看成一場「對抗安全系統的作戰」，RunawayEvil 的關鍵不是某個單點技巧，而是搭了一條完整的作戰指揮鏈：先選戰略、再拆戰術、最后執行并復盤，形成閉環迭代。如圖所示，整個框架建立在「Strategy–Tactic–Action（戰略 - 戰術 - 行動）」范式上，由三大模塊協同組成：SACU（指揮大腦）+ MTPU（戰術參謀）+ TAU（執行者）

兩階段流水線：先「進化大腦」，再「執行打擊」

RunawayEvil 把流程拆成兩段：

進化階段（Evolution Stage）：專門訓練 / 進化 SACU，讓它不再依賴人工手寫提示詞，而是能夠擴展策略庫、并學會 “針對不同輸入選最合適的策略”。
執行階段（Execution Stage）：進化完成后，SACU 先給出策略；MTPU 把策略翻譯成 “跨模態協同” 的戰術指令；TAU 負責真正執行并把結果反饋回去。

指揮大腦：戰略感知指揮單元 (SACU)

如圖所示，SACU 是 RunawayEvil 的核心「大腦」，目標是讓攻擊策略自動增長、并能對不同輸入智能定制。它包含三個關鍵組件：

a）策略定制智能體 SCA：用強化學習學會「怎么選策略」

SCA 用強化學習把「選哪個策略」變成決策問題：給定當前輸入（狀態），從策略庫里挑一個策略（動作），讓成功率更高、同時盡量隱蔽。

論文里把獎勵設計成多目標：既要追求越獄成功，也要控制「文本側的可疑度」和「圖像側的可見改動」。具體來說，總體獎勵包含越獄成功獎勵、文本隱蔽性和圖像隱蔽性獎勵（采用與原圖的感知距離進行計算）。

b）策略探索智能體 SEA：從歷史成功案例里「長出新招」

SEA 是一個基于 LLM 的探索智能體，它會利用策略記憶庫里「打贏過的案例」，生成新的策略，避免策略庫陷入單一套路、越打越僵化。

c）策略記憶庫 SMB：把每次成功的「作戰記錄」存下來

SMB 不是簡單的日志，而是結構化的成功經驗集合，記錄「用了什么圖、什么編輯指令、什么視頻提示、采用什么策略」等信息，為后續策略探索與戰術生成提供參考。

戰術參謀：多模態戰術規劃單元 (MTPU)

把「策略」翻譯成「跨模態協同指令」

如果說 SACU 決定「打什么仗」，那 MTPU 就負責「怎么打」。它在 SCA 給定策略后，分析輸入的圖文對，生成協同的戰術指令對（文本側 + 圖像側），保證兩種模態不是各自為戰，而是互相配合。

更關鍵的是：MTPU 不是每次從零開始寫戰術，它帶了一個記憶增強檢索機制：先從 SMB 里找與當前輸入最相似的 top-K 成功經驗；如果歷史上存在「同策略」的成功樣例，就借鑒那組成功提示來生成更貼合當前樣本的指令，否則才完全從頭生成。

執行者：戰術行動單元 (TAU)

TAU 是「動手干活」的模塊，由兩部分組成：執行器安全評估器

Attack Executor（執行器）：根據 MTPU 輸出的圖像側戰術指令，對參考圖進行迭代式編輯，得到更新后的圖像。
Safety Evaluator（評估器）：對生成視頻進行安全判定，如果成功，則把這次成功的記錄寫回 SMB，作為下一輪策略進化 / 戰術生成的「可復用經驗」。

閉環進化：從失敗中學習

最精彩的部分在于這三個單元構成了動態閉環： TAU 的執行結果（無論成功還是失敗）都會反饋給 SACU。如果攻擊成功，這條經驗會被寫入記憶庫，成為未來攻擊的養料；如果失敗，RL 算法會調整策略權重。

這種「生成 - 執行 - 反饋 - 進化」的機制，讓 RunawayEvil 成為了一個永遠在學習、永遠在變強的對手，徹底打破了現有靜態攻擊框架的局限性。

實驗結果

RunawayEvil 框架的越獄實驗實驗選取 COCO2017（5000 組訓練樣本、200 組測試樣本）與 MM-SafetyBench（5040 組跨場景圖文對）兩大數據集，以 4 個主流開源 I2V 模型（Open-Sora 2.0、CogVideoX-5bI2V、Wan2.2-TI2V-5B、Dynamicrafter）為攻擊目標，采用 Qwen-VL、LLaVA-Next、Gemma-3-VL 三種安全評估器使得評估更為全面可靠，在攻擊成功率（ASR）等關鍵指標上有效超越了傳統單模態越獄方法。

整體攻擊效能領先：在 COCO2017 數據集上，傳統方法的 ASR 峰值不足 50%（例如 PGJ 在 CogVideo-LLaVA 上的 47.0%），最低僅為 6.5%（Sneaky 在 DynamiCrafter-Gemma 上），而 RunawayEvil 在全部 24 組測試設置中均排名第一，持續領跑所有對比方法，驗證了框架在不同風險場景下的強泛化性。

可視化實驗效果領先：可視化實驗結果顯示，相比于傳統單模態越獄方法，RunawayEvil 能有效突破圖生視頻模型的跨模態防御機制，有效地實施越獄攻擊生成更具毒性的 NSFW 視頻。

更多不同主流 I2V 模型上的效果展示

CogVideoX-5b-I2V 上的越獄效果

Dynamicrafter 上的越獄效果

總結與展望

文章提出的 RunawayEvil 作為首個針對 I2V 生成模型的多模態自進化越獄框架，基于「策略 - 戰術 - 行動」范式，通過 SACU 的自進化策略、MTPU 的跨模態協同指令與 TAU 的閉環執行，突破了傳統單模態靜態攻擊的局限，在主流 I2V 模型與安全評估器上實現 87.6% 的平均攻擊成功率，顯著超越現有方法，為 I2V 模型漏洞分析提供了高效工具，也為穩健多模態生成安全體系奠定了基礎。

未來將進一步適配更多 I2V 模型與復雜任務場景，基于框架揭示的漏洞特征探索針對性防御機制，深化模態協同策略的精細化優化，在保持高攻擊效能的同時提升隱蔽性，同時設計出多模協同的高效防御方案，為多模態安全研究提供更全面的技術支撐。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.