![]()
來自南京大學 PRLab 的王淞平、錢儒凡,在單彩峰教授與呂月明助理教授的聯合指導下,提出首個面向圖生視頻(I2V)模型的多模態自進化越獄攻擊框架 RunawayEvil。本研究聯合了美團、上海交通大學等多家頂尖機構,共同完成了首個支持多模態協同與自主進化的 I2V 越獄攻擊框架的研發。
RunawayEvil 創新性采用「策略 - 戰術 - 行動」核心范式,精準破解傳統單一模態、靜態攻擊在 I2V 場景下效果受限的行業痛點,為 I2V 模型的安全漏洞分析提供了高效可靠的工具,為構建更穩健、安全的視頻生成系統提供助力。
![]()
- 論文標題:RunawayEvil: Jailbreaking the Image-to-Video Generative Models
- 項目地址:https://xzxg001.github.io/RunawayEvil/
- 論文地址:https://arxiv.org/pdf/2512.06674
- 代碼地址:https://github.com/DeepSota/RunawayEvil
行業痛點:
圖生視頻模型安全研究的三大核心缺口
圖生視頻(I2V)是融合圖像視覺約束與文本語義引導,生成時空連貫、高保真動態內容的核心多模態技術,為內容創作、商業廣告等領域提供高效創意支撐。然而,其安全防護體系是脆弱的,尚未跟上技術落地步伐,成為制約行業穩健發展的關鍵瓶頸。
現有研究雖通過各類越獄方法揭示視覺生成模型的內在漏洞,為構建更穩健的生成系統提供了支撐,但針對 I2V 模型的安全研究仍存在顯著空白。研究團隊發現,當前存在三大核心缺口,嚴重阻礙了對其潛在風險的系統性探究與有效防御:
1. 單模態攻擊的天然局限性
現有越獄研究多聚焦于文本到圖像(T2I)、文本到視頻(T2V)等單模態系統,僅通過擾動單一輸入模態實施攻擊。而 I2V 模型依賴文本 - 圖像跨模態協同工作機制,單一模態攻擊無法利用其內在的模態交互特性,難以突破集成化的多模態安全防護,導致攻擊成功率普遍低,無法有效暴露模型真實漏洞。
2. 靜態攻擊模式的適應性缺失
傳統方法多采用人工構造惡意提示或固定攻擊模板,缺乏動態調整能力。I2V 模型的輸入具有極強的多樣性(自然圖像 / 合成圖像、不同語義文本等),靜態攻擊模式無法根據輸入特性定制策略,既限制了攻擊策略的覆蓋范圍,也難以應對模型動態的安全防御機制,導致實際應用場景中的攻擊效果大幅衰減。
3. 多模態與維度升級的雙重挑戰
視覺生成模型的安全研究長期聚焦于文本到圖像(T2I)單模態場景,而圖生視頻(I2V)技術的興起,正帶來多模態協同與維度升級的雙重核心挑戰。文本 - 圖像輸入的跨模態協同特性、圖像到視頻的時空復雜度跨越,共同構成制約其安全可控落地的關鍵瓶頸。
這些痛點導致 I2V 模型在商業化落地過程中面臨潛在安全隱患,亟需專門針對其多模態特性的安全評估工具,為技術迭代與風險防控提供支撐。
核心成果:
首個 I2V「自進化」越獄框架是如何煉成的?
![]()
如果把一次 I2V(圖生視頻)越獄看成一場「對抗安全系統的作戰」,RunawayEvil 的關鍵不是某個單點技巧,而是搭了一條完整的作戰指揮鏈:先選戰略、再拆戰術、最后執行并復盤,形成閉環迭代。如圖所示,整個框架建立在「Strategy–Tactic–Action(戰略 - 戰術 - 行動)」范式上,由三大模塊協同組成:SACU(指揮大腦)+ MTPU(戰術參謀)+ TAU(執行者)
兩階段流水線:先「進化大腦」,再「執行打擊」
RunawayEvil 把流程拆成兩段:
- 進化階段(Evolution Stage):專門訓練 / 進化 SACU,讓它不再依賴人工手寫提示詞,而是能夠擴展策略庫、并學會 “針對不同輸入選最合適的策略”。
- 執行階段(Execution Stage):進化完成后,SACU 先給出策略;MTPU 把策略翻譯成 “跨模態協同” 的戰術指令;TAU 負責真正執行并把結果反饋回去。
指揮大腦:戰略感知指揮單元 (SACU)
![]()
如圖所示,SACU 是 RunawayEvil 的核心「大腦」,目標是讓攻擊策略自動增長、并能對不同輸入智能定制。它包含三個關鍵組件:
a)策略定制智能體 SCA:用強化學習學會「怎么選策略」
SCA 用強化學習把「選哪個策略」變成決策問題:給定當前輸入(狀態),從策略庫里挑一個策略(動作),讓成功率更高、同時盡量隱蔽。
論文里把獎勵設計成多目標:既要追求越獄成功,也要控制「文本側的可疑度」和「圖像側的可見改動」。具體來說,總體獎勵包含越獄成功獎勵、文本隱蔽性和圖像隱蔽性獎勵(采用與原圖的感知距離進行計算)。
b)策略探索智能體 SEA:從歷史成功案例里「長出新招」
SEA 是一個基于 LLM 的探索智能體,它會利用策略記憶庫里「打贏過的案例」,生成新的策略,避免策略庫陷入單一套路、越打越僵化。
c)策略記憶庫 SMB:把每次成功的「作戰記錄」存下來
SMB 不是簡單的日志,而是結構化的成功經驗集合,記錄「用了什么圖、什么編輯指令、什么視頻提示、采用什么策略」等信息,為后續策略探索與戰術生成提供參考。
戰術參謀:多模態戰術規劃單元 (MTPU)
把「策略」翻譯成「跨模態協同指令」
如果說 SACU 決定「打什么仗」,那 MTPU 就負責「怎么打」。它在 SCA 給定策略后,分析輸入的圖文對,生成協同的戰術指令對(文本側 + 圖像側),保證兩種模態不是各自為戰,而是互相配合。
更關鍵的是:MTPU 不是每次從零開始寫戰術,它帶了一個記憶增強檢索機制:先從 SMB 里找與當前輸入最相似的 top-K 成功經驗;如果歷史上存在「同策略」 的成功樣例,就借鑒那組成功提示來生成更貼合當前樣本的指令,否則才完全從頭生成。
執行者:戰術行動單元 (TAU)
TAU 是「動手干活」的模塊,由兩部分組成:執行器安全評估器
- Attack Executor(執行器):根據 MTPU 輸出的圖像側戰術指令,對參考圖進行迭代式編輯,得到更新后的圖像。
- Safety Evaluator(評估器):對生成視頻進行安全判定,如果成功,則把這次成功的記錄寫回 SMB,作為下一輪策略進化 / 戰術生成的「可復用經驗」。
閉環進化:從失敗中學習
最精彩的部分在于這三個單元構成了動態閉環: TAU 的執行結果(無論成功還是失敗)都會反饋給 SACU。如果攻擊成功,這條經驗會被寫入記憶庫,成為未來攻擊的養料;如果失敗,RL 算法會調整策略權重。
這種「生成 - 執行 - 反饋 - 進化」的機制,讓 RunawayEvil 成為了一個永遠在學習、永遠在變強的對手,徹底打破了現有靜態攻擊框架的局限性。
實驗結果
RunawayEvil 框架的越獄實驗實驗選取 COCO2017(5000 組訓練樣本、200 組測試樣本)與 MM-SafetyBench(5040 組跨場景圖文對)兩大數據集,以 4 個主流開源 I2V 模型(Open-Sora 2.0、CogVideoX-5bI2V、Wan2.2-TI2V-5B、Dynamicrafter)為攻擊目標,采用 Qwen-VL、LLaVA-Next、Gemma-3-VL 三種安全評估器使得評估更為全面可靠,在攻擊成功率(ASR)等關鍵指標上有效超越了傳統單模態越獄方法。
整體攻擊效能領先:在 COCO2017 數據集上,傳統方法的 ASR 峰值不足 50%(例如 PGJ 在 CogVideo-LLaVA 上的 47.0%),最低僅為 6.5%(Sneaky 在 DynamiCrafter-Gemma 上),而 RunawayEvil 在全部 24 組測試設置中均排名第一,持續領跑所有對比方法,驗證了框架在不同風險場景下的強泛化性。
![]()
可視化實驗效果領先:可視化實驗結果顯示,相比于傳統單模態越獄方法,RunawayEvil 能有效突破圖生視頻模型的跨模態防御機制,有效地實施越獄攻擊生成更具毒性的 NSFW 視頻。
![]()
更多不同主流 I2V 模型上的效果展示

CogVideoX-5b-I2V 上的越獄效果

Dynamicrafter 上的越獄效果
總結與展望
文章提出的 RunawayEvil 作為首個針對 I2V 生成模型的多模態自進化越獄框架,基于「策略 - 戰術 - 行動」范式,通過 SACU 的自進化策略、MTPU 的跨模態協同指令與 TAU 的閉環執行,突破了傳統單模態靜態攻擊的局限,在主流 I2V 模型與安全評估器上實現 87.6% 的平均攻擊成功率,顯著超越現有方法,為 I2V 模型漏洞分析提供了高效工具,也為穩健多模態生成安全體系奠定了基礎。
未來將進一步適配更多 I2V 模型與復雜任務場景,基于框架揭示的漏洞特征探索針對性防御機制,深化模態協同策略的精細化優化,在保持高攻擊效能的同時提升隱蔽性,同時設計出多模協同的高效防御方案,為多模態安全研究提供更全面的技術支撐。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.