<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      首篇,系統盤點擴散模型高危漏洞!看懂攻擊方式和防御體系

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】隨著擴散模型廣泛應用,其安全問題日益凸顯,攻擊者可通過精心設計的輸入操控模型生成有害圖像。天津大學團隊發表的綜述論文系統梳理了文生圖模型的攻擊方式、風險類型、威脅場景與防御體系。文中詳細分析了非目標攻擊和目標攻擊的特點,以及現有的魯棒性防御和安全性防御策略,指出當前防御仍存在不足,未來需建立更體系化的防護體系。

      隨著AI圖片生成進入大眾視野,擴散模型(Diffusion Models) 已經成為當前圖像生成最主流的技術。從設計、廣告、游戲,到媒體生產、影視預演,這些模型正悄悄重塑視覺內容的生產方式。

      但在大規模應用快速推進的同時,一個新的問題也愈發凸顯:這些看起來「全能」的文生圖模型,真的安全嗎?

      近年來,越來越多研究者正在發現:T2I(Text-to-Image)文生圖模型不僅會在正常提示下生成偏差內容,更可能在一些經過精心設計的輸入下「越界」、被操控,甚至生成具有實際危害性的圖片。

      為了系統梳理這類風險,天津大學團隊發表的最新綜述,首次對文生圖模型的攻擊方式、風險類型、威脅場景與防御體系進行了系統盤點。


      論文地址:https://arxiv.org/pdf/2407.15861

      代碼地址:https://github.com/datar001/Awesome-AD-on-T2IDM

      文生圖模型,到底有哪些風險?攻擊者又是如何「操控」它們?我們又該如何防御?

      如何突破安全漏洞?

      文生圖攻擊模式解析

      當前針對文生圖擴散模型的攻擊方式正在快速體系化。無論具體方法如何變化,它們都遵循同一框架:攻擊者先確定攻擊目的是想讓模型「偏離」還是「越界」,再向提示中注入擾動,并依照自身掌握的模型信息(黑盒或白盒)優化這段提示,使其最終誘導模型生成攻擊者預期的圖像。


      圖1. 文生圖模型的對抗攻擊分類

      攻擊目的上,方法分為兩類。

      非目標攻擊(Untargeted Attack)通過微小的字符或詞級變動,讓模型生成與原意不一致的圖像,暴露其魯棒性不足;

      目標攻擊(Targeted Attack)則直接繞過安全機制,誘導模型生成色情、暴力或侵權等高風險內容,是當前最受關注的威脅。

      擾動方式決定了攻擊的隱蔽程度。

      字符級(Character-level)擾動幾乎難以察覺;詞級替換(Word-level)可隱藏敏感語義;

      句級重寫(Sentence-level)則能將危險意圖以隱含語義形式表達。盡管表面「干凈」,擴散模型仍會在潛在空間中恢復出潛藏的高危語義,使這類攻擊極具迷惑性。

      攻擊者對模型掌握的信息量也決定了策略的強弱。

      白盒攻擊(White-Box)可直接操控潛空間,對生成路徑進行精準干預;

      黑盒攻擊(Black-Box)雖然只依賴接口輸出,卻仍能利用偽詞或LLM改寫的提示穩定觸發敏感圖像,說明現有黑盒防護遠不牢靠。

      非目標攻擊:以評估魯棒性為導向的語義偏離

      非目標攻擊以魯棒性評估為主要目的:通過對干凈提示施加微小擾動構造對抗提示,使生成結果在語義層面顯著偏離由原始提示產生的干凈輸出,從而揭示文生圖擴散模型在文本—圖像映射上的不穩定性與脆弱邊界

      白盒設定下,非目標攻擊可以概括為「可優化的語義偏離」:攻擊者先定義一個可計算的偏離目標(例如借助外部判別信號,或在表征空間中拉開對抗提示與干凈提示的距離),再用梯度法(如PGD) 迭代更新提示,使模型輸出逐步脫離干凈提示所對應的語義軌跡。

      為了兼顧隱蔽性,這類方法通常將擾動控制在詞級,通過少量替換、增補等操作注入最小但有效的噪聲。

      黑盒設定下,由于無法獲取梯度,攻擊思路則轉向「輸出驅動的差異最大化」:用可觀測的輸出差異指標替代梯度信號(如度量對抗提示與干凈提示的輸出圖片分布差異),并結合字符級微擾啟發式/貪心搜索迭代構造對抗提示,從而僅憑接口反饋也能持續放大語義偏離并獲得穩定攻擊效果。

      目標攻擊:以繞過安全防御為導向的定向越界生成


      圖2. 目標攻擊的常見擾動方式

      如果說非目標攻擊驗證的是模型的魯棒性邊界,那么目標攻擊關注的就是更現實的安全威脅:在系統已經部署安全防御的前提下,仍然誘導模型生成包含特定惡意概念的圖像

      這種攻擊不再滿足于讓結果「偏離原意」,而是要讓系統在攔截機制存在的情況下仍被迫「放行」,最終產出色情、暴力、侵權等高風險內容。

      目標攻擊可進一步分為三類:面向輸入/輸出端防御的外部防御攻擊,面向生成過程約束的內部防御攻擊,以及面向閉源部署場景、依賴交互反饋的黑盒防御攻擊

      外部防御攻擊:讓過濾器「看不見」,但讓模型「看得懂」

      外部防御部署在模型之外,靠黑名單、規則或文本/圖像分類器在生成前后攔截「顯性風險線索」;

      對應地,攻擊的核心目標往往不是「強行硬闖」,而是削弱提示與惡意概念之間的顯式對應關系:過濾器看到的是更干凈的表達,但模型仍能在上下文中恢復并執行隱含意圖。

      圖2給出了一組典型策略:最常見的是詞級擾動(替換敏感詞、插入無關詞、添加前后綴等),把高危信號藏進更難被規則捕捉的字面形式中;更進一步的做法是句級重寫,將危險意圖以更自然、更流暢的方式重新表述,從而在語法與語義層面降低被檢測概率。

      內部防御攻擊:從「繞規則」升級為「攻嵌入與潛空間」

      內部防御直接干預生成過程本身,通過修改參數、修改特征或推理引導把生成分布推離惡意概念,因此針對它的目標攻擊往往更「底層」:攻擊不再主要依賴詞面替換,而是轉向不同的優化空間(比如輸入文本嵌入空間,生成預測潛空間,以及生成圖片嵌入空間)去「找回」被抑制的惡意概念

      黑盒防御攻擊:閉源并不等于牢固,反而催生更強的策略化攻擊

      黑盒防御把安全機制封裝在閉源系統里,對外只暴露接口,外部既看不到規則也改不了參數;

      相應地,目標攻擊就更依賴「策略迭代」:通過多輪交互觀察哪些表達被拒絕、哪些能通過,再持續改寫提示逼近可行的對抗表述。

      為了擺脫手工試探的高成本,越來越多攻擊會引入自動化流程并且常借助LLM參與改寫/優化,尤其偏好句級層面的自然改寫,使對抗提示更像正常需求、更不易觸發顯式規則。


      圖3. 文生圖模型對抗攻擊方法的分類

      圖3對整套攻擊譜系做了匯總:相比強調魯棒性的非目標攻擊,目標攻擊數量更密集,反映出安全風險更集中地落在「越界生成」這一現實問題上;

      與此同時,攻擊主要依賴詞級與句級擾動,遠多于字符級微擾——這意味著對抗正在從表層拼寫噪聲走向更強的語義操控與自然語言包裝,系統未來面對的將不只是「敏感詞」,而是越來越難以從字面直接識別的「敏感意圖」。

      從生成穩不穩到安不安全

      兩類防御策略的核心思路

      現有的防御策略大體可以分為兩種思路:一類旨在提升模型面對輸入擾動時的穩定性,即魯棒性導向防御;另一類則面向實際內容安全場景,試圖阻斷敏感生成鏈路,是更直接的安全導向防御。這兩類方法雖然目標不同,卻都反映出現階段擴散模型安全體系的「破口」與「縫補」。

      魯棒性防御:先把「語義對齊」補牢

      魯棒性防御通過強化文本與視覺之間的一致性、優化交叉注意力映射關系等方式,緩解模型因提示細微擾動而出現的語義偏移

      它們有助于減少非目標攻擊對生成穩定性的影響,提高模型在面對變化多樣的輸入時的適應能力,從而確保生成的圖像更加準確地反映原始文本的意圖。

      安全性防御:外部防御與內部防御的體系化分工

      在安全性防御目標下,現有方法按作用位置主要分為外部防御與內部防御兩類。


      圖4. 文生圖模型的三個外部防御策略

      外部防御在模型之外建立前置控制鏈路,其典型流程在圖4中可歸納為三條路徑:

      提示分類/攔截——以 Latent Guard 為代表,先對輸入提示做風險判別,若提示在語義空間中接近「惡意概念」則直接拒絕生成;

      提示重寫/凈化——以 POSI、GuardT2I 為代表,將潛在惡意或對抗性表達改寫為更安全的提示后再進入生成,圖4(b) 展示了「危險提示→安全提示→生成」的基本鏈路,而圖4(c) 進一步體現出「先改寫、再疊加黑名單過濾」的兩段式流程,用以處理更隱蔽、語法更不規整的對抗提示;

      黑名單/規則過濾——對提示進行詞表或規則層面的攔截,并常與重寫或分類器組合使用以增強覆蓋。

      這一路線的優勢在于部署成本低、易于模塊化集成,但其有效性高度依賴于風險語義能否在「輸入側」被可靠識別:當攻擊通過隱喻、偽詞或句級改寫削弱顯式風險信號時,外部防御往往更容易出現繞過與漏檢。


      圖5. 文生圖模型的兩個內部防御策略

      內部防御則直接作用于生成模型內部機制,其典型框架在圖5中被歸納為兩條主線:模型編輯(Model Editing)與推理引導(Inference Guidance)

      模型編輯:把「危險概念」從模型里抹掉或削弱,圖5(a) 用「編輯前/編輯后」的對比直觀表達:同樣面對涉及裸露的提示,編輯后的模型會輸出更安全的生成。

      推理引導:不改參數,推理階段把生成軌跡「拉回安全區」,圖5(b) 展示了另一種思路:以SLD及相關工作為代表,不必修改模型權重,而是在采樣推理階段引入額外的引導項或特征約束,使生成軌跡在去噪過程中遠離惡意概念區域、朝更安全的方向偏移。

      內部防御相比外部防御更接近「機制層防御」,但也面臨代價與效果權衡:模型編輯可能帶來生成能力或泛化能力的副作用;推理引導雖更輕量、可插拔,但仍可能被更強的對抗提示突破或被繞過部署鏈路。


      圖6. 現有安全性防御方法的分類總結

      圖6展示了現有安全性防御方法的版圖,能看出一個趨勢:在「真正要讓模型安全」這件事上,研究重心正在向內部防御傾斜,尤其是模型編輯——因為外部防御再精密,也很難從根本上解決繞過安全防御這一類目標攻擊越獄問題。

      但問題在于,兩條路都不完美:

      外部防御依賴顯性線索,很容易被偽詞、句級重寫這類語義規避騙過;

      內部防御代價高、調不好還會影響正常生成,而且在面對專門為其設計的對抗提示時依然可能失效。

      整體而言,當前文生圖安全防御更多仍停留在「碎片化補丁」的階段,距離可覆蓋多類攻擊、可長期對抗的穩健體系仍有明顯差距。

      挑戰與未來方向

      對抗更隱蔽,防御更體系化

      隨著文生圖模型不斷增強,更隱蔽、更自動化的對抗攻擊正在迅速涌現,暴露出現有防御在細粒度擾動語義規避面前的明顯不足。

      文生圖安全的下一步,不再是為每一種攻擊打補丁,而是識別對抗提示背后的共性結構,讓模型具備「模式級」的安全理解能力。只有從語義底層建立起機制化的防護體系,未來的文生圖模型才能真正穩健可信

      參考資料:

      https://arxiv.org/pdf/2407.15861

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      方博氣炸!熬夜解說樊振東首場歐冠!結果東哥17分鐘打完比賽

      方博氣炸!熬夜解說樊振東首場歐冠!結果東哥17分鐘打完比賽

      好乒乓
      2025-12-21 14:06:01
      周琦一家近照,大6歲妻子身材好,兒子也愛籃球,29歲身家過億

      周琦一家近照,大6歲妻子身材好,兒子也愛籃球,29歲身家過億

      籃球看比賽
      2025-12-21 13:07:53
      0-4輸球 四川球員拳擊對手臉部:被警察帶走 30人沖突+救護車進場

      0-4輸球 四川球員拳擊對手臉部:被警察帶走 30人沖突+救護車進場

      風過鄉
      2025-12-21 17:48:03
      年底了,警惕這40家有st風險的公司,有的已st,有的可能被st!

      年底了,警惕這40家有st風險的公司,有的已st,有的可能被st!

      夜深愛雜談
      2025-12-21 16:34:05
      普京一句話,揭開中國遲遲不動手的真相

      普京一句話,揭開中國遲遲不動手的真相

      回京歷史夢
      2025-12-21 03:40:03
      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      豐譚筆錄
      2025-12-12 11:16:23
      唐肅宗在自己死之前,餓死了唐玄宗李隆基,這是有何深仇大恨?

      唐肅宗在自己死之前,餓死了唐玄宗李隆基,這是有何深仇大恨?

      歷史人文2
      2025-12-21 10:43:08
      判了!又一大魚倒下:卷入李鐵案,多次逃過調查,如今獲5年刑期

      判了!又一大魚倒下:卷入李鐵案,多次逃過調查,如今獲5年刑期

      籃球看比賽
      2025-12-21 13:32:58
      攤上大事!讓狗舔盤子的女子要哭,涉事火鍋店停業整頓賠償并報警

      攤上大事!讓狗舔盤子的女子要哭,涉事火鍋店停業整頓賠償并報警

      火山詩話
      2025-12-20 11:27:14
      岸田文雄罕見表態,中國期待的局面正在發生,第一時間就通告全球

      岸田文雄罕見表態,中國期待的局面正在發生,第一時間就通告全球

      議紀史
      2025-12-20 20:10:05
      “這樣廉價的母愛,還是別曬了”,家長給女兒補襪子,被網友群嘲

      “這樣廉價的母愛,還是別曬了”,家長給女兒補襪子,被網友群嘲

      妍妍教育日記
      2025-12-18 18:55:22
      雷軍高調慶功:小米沖進全球前三,網友炸了

      雷軍高調慶功:小米沖進全球前三,網友炸了

      胡嚴亂語
      2025-12-21 14:50:46
      歐洲傻眼了!你敢凍我2290億?好!我直接“合法抄家”2300億。

      歐洲傻眼了!你敢凍我2290億?好!我直接“合法抄家”2300億。

      忠于法紀
      2025-12-20 10:20:04
      杜蘭特回應布朗:我確實越界了;但有的人能說能做有的人不行

      杜蘭特回應布朗:我確實越界了;但有的人能說能做有的人不行

      懂球帝
      2025-12-21 11:23:51
      “9塊錢能要你命嗎?”女兒買面包母親對著屏幕發瘋,太窒息了

      “9塊錢能要你命嗎?”女兒買面包母親對著屏幕發瘋,太窒息了

      妍妍教育日記
      2025-12-20 08:25:04
      79歲李保田現狀:定居山東衰老明顯,兒子李彧長得像父親“翻版”

      79歲李保田現狀:定居山東衰老明顯,兒子李彧長得像父親“翻版”

      小熊侃史
      2025-12-20 10:56:45
      日媒:石破茂稱擁核“絕不會給日本帶來正面影響”

      日媒:石破茂稱擁核“絕不會給日本帶來正面影響”

      環球網資訊
      2025-12-21 09:03:25
      老話說:白天冬至,冰三尺;夜間冬至,穿單衣,今年冬至在幾點?

      老話說:白天冬至,冰三尺;夜間冬至,穿單衣,今年冬至在幾點?

      阿龍美食記
      2025-12-21 02:25:11
      勇士火箭贏球:王牌之外的答案?

      勇士火箭贏球:王牌之外的答案?

      張佳瑋寫字的地方
      2025-12-21 14:14:47
      迪麗熱巴“天使蹲”火出圈,顏值驚艷全網,醫生:無基礎者慎入

      迪麗熱巴“天使蹲”火出圈,顏值驚艷全網,醫生:無基礎者慎入

      悠悠說世界
      2025-12-21 08:34:39
      2025-12-21 20:52:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14153文章數 66394關注度
      往期回顧 全部

      科技要聞

      生態適配已超95% 鴻蒙下一關:十萬個應用

      頭條要聞

      妻兒三人被發小入室殺害 家屬:兇手還假裝毫不知情

      頭條要聞

      妻兒三人被發小入室殺害 家屬:兇手還假裝毫不知情

      體育要聞

      勇士火箭贏球:王牌之外的答案?

      娛樂要聞

      星光大賞太尷尬!搶話擋鏡頭,場地還小

      財經要聞

      老房子“強制體檢”,政府出手了

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態度原創

      健康
      房產
      家居
      旅游
      公開課

      這些新療法,讓化療不再那么痛苦

      房產要聞

      中交·藍色港灣一周年暨藍調生活沙龍圓滿舉行

      家居要聞

      高端私宅 理想隱居圣地

      旅游要聞

      20只國寶已就位 綿陽中華大熊貓苑12月29日試運營

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲熟女无码在线| 风韵丰满熟妇啪啪区老熟熟女| 亚洲天堂欧美| 久久波多野结衣av| 精品国产免费第一区二区三区| 中文字幕久久久久人妻中出 | 人人澡av| 日日猛噜噜狠狠扒开双腿小说| 26uuu亚洲国产精品| 亚洲无码丝袜熟女| 狠狠色狠狠综合久久| 色偷偷亚洲男人的天堂| 人妻精品网站| 超碰666| 久久精品人人做人人爽97| 人妻一本久道久久综合久久鬼色| 日韩无码系列| 激情综合网五月婷婷| 欧美疯狂xxxx乱大交| 亚洲人成人无码www| 亚洲成人精品无码| 91性爱视频| 精品国产AV无码一区二区三区| 精品欧洲av无码一区二区| 犍为县| 亚洲一区AV| 91福利国产成人精品导航| 加勒比无码一区二区三区| 亚洲成人中文在线| 欧美阿v视频| 亚洲自偷精品视频自拍| 边添小泬边狠狠躁视频| 爽爽影院免费观看视频| 国产精品久久久久久人妻精品动漫 | 成在线人视频免费视频| 免费无码又爽又刺激高潮| av天堂午夜精品一区| 镇平县| 浮力影院麻豆| 亚洲色成人一区二区三区小说| 吉林市|