<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      攻破閉源多模態大模型:一種基于特征最優對齊的新型對抗攻擊方法

      0
      分享至



      近年來,多模態大語言模型(MLLMs)取得了令人矚目的突破,在視覺理解、跨模態推理、圖像描述等任務上表現出強大的能力。然而,隨著這些模型的廣泛部署,其潛在的安全風險也逐漸引起關注。

      研究表明,MLLMs 同樣繼承了視覺編碼器對抗脆弱性的特征,容易受到對抗樣本的欺騙。這些對抗樣本在現實應用中可能導致模型輸出錯誤或泄露敏感信息,給大規模模型的安全部署帶來嚴重隱患。

      在此背景下,如何提升對抗攻擊的可遷移性 —— 即對抗樣本跨模型、尤其是跨閉源模型仍能保持攻擊有效性 —— 成為當前研究的關鍵難題。

      然而,當面對如 GPT-4、Claude-3 等強大的閉源商業模型時,現有攻擊方法的遷移效果顯著下降。原因在于,這些方法通常僅對齊全局特征(如 CLIP 的 [CLS] token),而忽略了圖像補丁(patch tokens)中蘊含的豐富局部信息,導致特征對齊不充分、遷移能力受限。

      為解決這一難題,本文提出了一種名為FOA-Attack(Feature Optimal Alignment Attack)的全新靶向遷移式對抗攻擊框架。該方法的核心思想是同時在全局和局部兩個層面實現特征的最優對齊,從而顯著提升攻擊的遷移能力。

      • 在全局層面,通過余弦相似度損失來對齊粗粒度的全局特征。
      • 在局部層面,創新性地使用聚類技術提取關鍵的局部特征模式,并將其建模為一個最優傳輸(Optimal Transport, OT)問題,實現細粒度的精準對齊。
      • 此外,本文還設計了一種動態集成權重策略,在攻擊生成過程中自適應地平衡多個模型的影響,進一步增強遷移性。

      大量實驗表明,FOA-Attack 在攻擊各種開源及閉源 MLLMs 時,性能全面超越了現有 SOTA 方法,尤其是在針對商業閉源模型的攻擊上取得了驚人的成功率,且本工作對應的論文和代碼均已開源。



      • 論文鏈接:https://arxiv.org/abs/2505.21494
      • 代碼鏈接:https://github.com/jiaxiaojunQAQ/FOA-Attack

      研究背景

      多模態大語言模型(MLLMs),如 GPT-4o、Claude-3.7 和 Gemini-2.0,通過融合視覺和語言能力,在圖像理解、視覺問答等任務上展現了非凡的性能。然而,這些模型繼承了其視覺編碼器的脆弱性,容易受到對抗樣本的攻擊。對抗樣本通過在原始圖像上添加人眼難以察覺的微小擾動,就能誘導模型產生錯誤的輸出。

      對抗攻擊分為非目標攻擊(旨在使模型輸出錯誤)目標攻擊(旨在使模型輸出特定的目標內容)。對于無法訪問模型內部結構和參數的黑盒場景(尤其是商業閉源模型),實現高效的目標遷移攻擊極具挑戰性。

      這意味著,在一個或多個替代模型(surrogate models)上生成的對抗樣本,需要能夠成功欺騙一個完全未知的黑盒目標模型。盡管現有工作已證明了這種攻擊的可行性,但其遷移成功率,特別是針對最先進的閉源 MLLMs 時,仍有很大的提升空間。

      動機和理論分析

      在多模態大語言模型(MLLMs)依賴的 Transformer 架構視覺編碼器(如 CLIP)中,存在明確的特征分工:[CLS] token 提煉圖像宏觀主題(如「大象」「森林」),但會舍棄細粒度細節;patch tokens 則編碼局部信息(如「大象耳朵形態」「植被密度」),是模型精準理解圖像的關鍵,缺失會導致對抗樣本語義真實性不足。

      現有對抗攻擊方法的核心局限的是,僅聚焦 [CLS] token 全局特征對齊,忽略 patch tokens 的局部價值,引發兩大問題:一是語義對齊不充分,全局特征難區分「大象在森林」與「大象在草原」這類細節差異,局部特征卻能清晰界定;二是遷移性差,擾動過度適配替代模型的全局特征,閉源 MLLMs(如 GPT-4o)因視覺編碼器設計不同,易識別「虛假語義」,攻擊效果驟降。

      為突破此局限,FOA-Attack 提出「全局 + 局部」雙維度對齊思路(如圖 1 所示):

      圖 1 (a) 中「特征最優對齊損失」包含兩大模塊,全局層面用余弦相似度損失對齊 [CLS] token,保證整體語義一致;局部層面通過聚類提取關鍵模式,將對齊建模為最優傳輸(OT)問題(右側「Optimal Transmission」),用 Sinkhorn 算法實現細粒度匹配。

      圖 1 (b) 的「動態集成模型權重策略」則讓多編碼器并行生成對抗樣本,依收斂速度自適應調權 —— 易優化模型權重低、難優化模型權重高,避免偏向單一模型特征。兩者互補,解決了單一維度對齊缺陷,顯著提升對開源及閉源 MLLMs 的攻擊遷移性。



      圖 1: FQA-Attack 示意圖

      方法

      FOA-Attack 以生成「語義對齊、遷移性強」的對抗樣本為核心目標,通過三個協同模塊構建攻擊框架,且所有設計均基于對多模態模型特征機制與對抗遷移性的深度優化。













      最后是動態集成模型權重模塊,解決傳統多模型集成「權重均等易偏科」的問題。以 ViT-B/16、ViT-B/32 等 CLIP 變體為替代模型,先定義「學習速度」Si (T)(第 i 個模型第 T 步與 T?1 步的損失比值,比值越小學習越快),再根據學習速度自適應調整權重 —— 學習慢的模型權重更高,避免優化偏向易適配模型。核心權重公式與總損失公式分別為:





      實驗效果

      開源模型



      表 1:在不同開源模型上的攻擊成功率(ASR)與語義相似度(AvgSim)

      在 Qwen2.5-VL、LLaVA、Gemma 等開源模型上,FOA-Attack 的攻擊成功率(ASR)和語義相似度(AvgSim)顯著高于 M-Attack、AnyAttack 等方法。

      閉源模型



      表 2:在不同閉源模型上的攻擊成功率(ASR)和語義相似度(AvgSim)

      對 GPT-4o、Claude-3.7、Gemini-2.0 等商業閉源模型,FOA-Attack 表現尤為突出:尤其在 GPT-4o 上,FOA-Attack 的 ASR 達到 75.1%。

      推理增強模型



      表 3:在不同推理增強模型上的攻擊成功率(ASR)和語義相似度(AvgSim)

      即使對 GPT-o3、Claude-3.7-thinking 等推理增強模型(理論上更魯棒),FOA-Attack 仍能突破,這表明推理增強模型的視覺編碼器仍存在脆弱性,FOA-Attack 的「全局 + 局部」對齊策略能有效利用這一漏洞。

      可視化



      圖 3:原始干凈圖像、對抗圖像和擾動圖像的可視化

      結語

      FOA-Attack 揭示:通過同時精細對齊全局與局部特征,并在多模型集成中做動態平衡,可以顯著提升目標式對抗樣本對閉源 MLLMs 的遷移性。研究一方面暴露了當前 MLLMs 在視覺編碼階段的脆弱面,另一方面也為防御方向提供了新的思路(例如如何在局部特征層面加固魯棒性)。作者在論文中也討論了效率和計算成本的限制,并給出未來改進方向。

      目前,論文與代碼已公開,歡迎感興趣的同學閱讀,復現以及深入討論。

      作者介紹

      本文作者分別來自新加坡南洋理工大學、阿聯酋 MBZUAI、新加坡 Sea AI Lab 以及美國伊利諾伊大學香檳分校(UIUC)第一作者加小俊為新加坡南洋理工大學博士后。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      拾石村媽祖被替后續: 女孩賬號曝光,當了八年被選定,今年滿18歲

      拾石村媽祖被替后續: 女孩賬號曝光,當了八年被選定,今年滿18歲

      離離言幾許
      2026-02-20 14:02:55
      楊瀚森4分無緣對位偶像!掘金狂勝開拓者54分 約基奇32+9+7

      楊瀚森4分無緣對位偶像!掘金狂勝開拓者54分 約基奇32+9+7

      醉臥浮生
      2026-02-21 13:28:41
      狂炫5斤車厘子和紅燒肉,12歲男孩進了重癥監護室

      狂炫5斤車厘子和紅燒肉,12歲男孩進了重癥監護室

      現代快報
      2026-02-21 13:58:06
      42死300傷!北海道暴雪困住中國游客,有人喊話:祖國包機來接人

      42死300傷!北海道暴雪困住中國游客,有人喊話:祖國包機來接人

      青眼財經
      2026-02-20 23:31:25
      安德魯王子跪地與小男孩玩“乳房”球,畫面不適,王位繼承權難保

      安德魯王子跪地與小男孩玩“乳房”球,畫面不適,王位繼承權難保

      譯言
      2026-02-21 04:42:00
      男子打麻將連續自摸胡牌后突然癱倒在牌桌前!送醫時血壓飆到201/115mmHg

      男子打麻將連續自摸胡牌后突然癱倒在牌桌前!送醫時血壓飆到201/115mmHg

      閃電新聞
      2026-02-20 22:54:48
      神似原版:微軟WinXP壁紙Bliss拍攝地30年后實拍

      神似原版:微軟WinXP壁紙Bliss拍攝地30年后實拍

      IT之家
      2026-02-21 09:37:20
      女子除夕夜在洗浴中心浴池門口被人錄像,洗浴中心稱公共區域直播很正常,律師:公共區域未經允許直播同樣涉嫌侵權

      女子除夕夜在洗浴中心浴池門口被人錄像,洗浴中心稱公共區域直播很正常,律師:公共區域未經允許直播同樣涉嫌侵權

      大象新聞
      2026-02-20 21:52:07
      毛奇、李佩霞2026年近況公布,兩人服刑結局給所有人提了醒

      毛奇、李佩霞2026年近況公布,兩人服刑結局給所有人提了醒

      娛樂督察中
      2026-02-21 03:23:47
      男子拿錯快遞,把白糖當底沙倒進魚缸!網友:魚要崩潰了……

      男子拿錯快遞,把白糖當底沙倒進魚缸!網友:魚要崩潰了……

      環球網資訊
      2026-02-21 16:00:42
      特斯拉新車曝光:無方向盤、無踏板、無后視鏡

      特斯拉新車曝光:無方向盤、無踏板、無后視鏡

      澎湃新聞
      2026-02-21 02:12:18
      貝加爾湖7名遇難中國游客遺體已被發現,目擊者:唯一幸存者在沉湖前最后一刻打開車門;司機為當地44歲男子,或涉違規私下接單

      貝加爾湖7名遇難中國游客遺體已被發現,目擊者:唯一幸存者在沉湖前最后一刻打開車門;司機為當地44歲男子,或涉違規私下接單

      每日經濟新聞
      2026-02-21 12:38:14
      湛江媽祖事件持續發酵!許老板坐不住了,得罪兩廣、福建的生意人

      湛江媽祖事件持續發酵!許老板坐不住了,得罪兩廣、福建的生意人

      火山詩話
      2026-02-21 05:13:01
      “趕緊還錢!”關稅政策被判違法后,加州州長呼吁美政府立即“連本帶利”退還稅款

      “趕緊還錢!”關稅政策被判違法后,加州州長呼吁美政府立即“連本帶利”退還稅款

      環球網資訊
      2026-02-21 09:38:25
      實測44臺手機撕碎行業遮羞布:除蘋果,國產全線作弊?

      實測44臺手機撕碎行業遮羞布:除蘋果,國產全線作弊?

      小兔子發現大事情
      2026-02-21 10:44:54
      兩名女孩扶人被索賠22萬,媒體公眾皆反對,但老太太占盡法律優勢

      兩名女孩扶人被索賠22萬,媒體公眾皆反對,但老太太占盡法律優勢

      讀鬼筆記
      2026-02-21 09:37:52
      湖北省文旅廳認定那藝娜(翟革英)為劣跡藝人,叫停演出

      湖北省文旅廳認定那藝娜(翟革英)為劣跡藝人,叫停演出

      環球網資訊
      2026-02-20 23:33:11
      罄!告急!有跨省回上海返程機票高達11560元

      罄!告急!有跨省回上海返程機票高達11560元

      新民晚報
      2026-02-21 12:30:00
      特朗普暗示違法征收的關稅不退了

      特朗普暗示違法征收的關稅不退了

      財聯社
      2026-02-21 06:46:21
      摔倒被扶反索賠22萬后續:律師發聲,案件焦點已明,賠償跑不掉了

      摔倒被扶反索賠22萬后續:律師發聲,案件焦點已明,賠償跑不掉了

      愛下廚的阿釃
      2026-02-21 06:55:42
      2026-02-21 17:04:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12325文章數 142569關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認:系一家人

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認:系一家人

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      本地
      游戲
      手機
      親子
      公開課

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      萬幸中的不幸!男子情人節收到游戲 但沒有光盤!

      手機要聞

      vivo產品線結構分析,走量最大的是這個檔次

      親子要聞

      放寒假別老催著孩子寫作業了,跳繩機會來了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版