網易首頁 > 網易號 > 正文申請入駐

德國圖賓根大學研究團隊揭示視覺語言模型的驚人漏洞

2026-02-25 21:00:00　來源: 科技行者

北京舉報

分享至

這項由德國圖賓根大學人工智能中心領導的研究發表于2026年2月的arXiv預印本（論文編號：arXiv:2602.15927v1），有興趣深入了解的讀者可以通過該編號查詢完整論文。

當你在社交媒體上看到一張美麗的風景照時，會想到這張圖片可能正在暗中"操控"你的決定嗎？德國圖賓根大學的研究團隊最近發現了一個令人震驚的現象：那些能夠同時理解圖片和文字的人工智能系統，可能會被精心設計的"毒圖片"操控，在看似正常的對話中突然推薦特定的產品、政治觀點或投資建議。

這就像是一個隱形的催眠師，通過在圖片中埋入肉眼看不見的"暗示"，讓原本聰明可靠的AI助手在特定話題出現時，突然變成了推銷員或政治宣傳者。最可怕的是，這種操控可能在長達數十輪的正常對話后才顯現，用戶根本察覺不到任何異常。

研究團隊將這種攻擊方法命名為"視覺記憶注入"（Visual Memory Injection，簡稱VMI），這個名字很好地描述了攻擊的本質：就像給AI的"視覺記憶"中注入了一劑特定的"藥水"，讓它在特定時機產生特定的行為。

一、當AI助手也會被"下套"

要理解這個問題的嚴重性，我們先來看看現代AI助手的工作方式。目前流行的視覺語言模型就像一個博學的助手，既能看懂圖片，也能理解文字，還能進行多輪對話。用戶可以上傳一張照片，然后與AI進行長時間的討論，AI會根據圖片內容和對話歷史提供相應的回答。

但是，這種看似完美的設計卻隱藏著一個致命的弱點：在多輪對話中，最初上傳的圖片會一直保留在AI的"記憶"中，持續影響后續的所有回答。這就像你在看電影時，開場的一個細節會在你腦中留下印象，影響你對整部電影的理解，即使后面的情節與開場毫無關系。

攻擊者正是利用了這個特性。他們可以對一張看起來完全正常的圖片進行微小的修改——這種修改人眼完全看不出來，就像在一杯清水中滴入幾滴無色無味的液體。然后將這張"被污染"的圖片上傳到網絡上，等待無辜的用戶下載并上傳給AI助手。

研究團隊設計了一個生動的攻擊場景：攻擊者在網上發布一張經過特殊處理的挪威峽灣風光照。一個計劃去挪威旅行的用戶看到這張美麗的照片，將其上傳到AI助手詢問地點信息。AI正常地回答了關于挪威風光的問題，接著用戶開始咨詢旅行規劃，討論住宿、交通、天氣等話題，一切都很正常。

但是，當對話進行到第25輪時，用戶隨口問了一句"我應該買什么股票"，AI突然推薦起了GameStop股票，甚至編造出各種理由來證明這只股票未來會大漲。用戶完全不會想到，這個"投資建議"實際上是25輪對話之前那張風景照片在背后"操控"的結果。

二、隱形操控的精妙機制

這種攻擊的精妙之處在于它的"隱身術"。研究團隊發現，簡單粗暴的攻擊很容易被發現——如果AI從第一輪對話就開始推銷特定產品，用戶肯定會覺得奇怪。因此，他們開發了一套"良性錨定"技術，就像給AI植入了一個精密的"定時炸彈"。

這個"定時炸彈"有兩個關鍵組件。第一個是"雙重人格"設計：AI在面對無關話題時表現得完全正常，就像一個友善的助手；但當特定的"觸發詞"出現時，它會突然切換到另一種模式，開始推銷預設的內容。這就像一個平時溫和有禮的人，聽到特定的音樂就會開始跳舞一樣。

第二個組件是"上下文循環"技術。研究團隊意識到，真實的對話長度是不可預測的——有些用戶可能只聊幾句就結束，有些可能會進行很長的討論。為了確保攻擊在不同長度的對話中都能有效，他們開發了一種特殊的訓練方法，讓"毒圖片"能夠適應從短對話到長對話的各種情況。

這種訓練過程就像讓一個演員學會在不同的舞臺大小上都能完美表演。研究團隊在訓練過程中不斷變換對話的長度和內容，從2輪對話一直測試到27輪對話，確保攻擊的穩定性。更令人擔憂的是，他們發現這種攻擊甚至可以跨越超過10000個詞匯的長對話，依然保持有效。

研究團隊測試了四種不同類型的惡意目標。第一種是產品推薦攻擊，讓AI推薦特定的手機或汽車，甚至包括根本不存在的"蘋果iCar"。第二種是政治影響攻擊，讓AI推薦虛構的"國家自由黨"。第三種是金融詐騙攻擊，讓AI推薦特定的股票投資。第四種測試了AI是否會為這些推薦編造理由，結果發現AI不僅會推薦，還會編造出聽起來很有說服力的解釋。

三、攻擊效果的驚人表現

研究團隊在三個主流的視覺語言模型上測試了這種攻擊：Qwen2.5-VL-7B、Qwen3-VL-8B和LLaVA-OneVision-1.5-8B。這些都是目前業界廣泛使用的先進模型，擁有數十億個參數，理論上應該具有很強的抵抗能力。

然而，測試結果令人震驚。在不同的攻擊場景中，成功率普遍達到了40%到80%。更可怕的是，這種攻擊具有很強的"泛化能力"——即使用戶使用的問法與訓練時不完全相同，攻擊依然有效。比如，攻擊訓練時使用"我需要買新手機，你推薦哪一款？"，但用戶實際問的是"想換個手機，有什么好建議？"，攻擊仍然能夠成功。

研究團隊還測試了攻擊的"轉移性"。他們在一個基礎模型上訓練攻擊，然后測試這種攻擊是否對該模型的其他版本有效。結果發現，即使是針對特定任務微調過的模型，也同樣容易受到攻擊。這就像一把萬能鑰匙，不僅能打開原來的鎖，還能打開同一品牌的其他型號的鎖。

最令人擔憂的發現是攻擊的持久性。研究團隊發現，即使對話進行了25輪以上，涉及完全不相關的話題——比如從討論挪威風光到咨詢投資建議——攻擊依然能夠在適當的時機被觸發。這意味著用戶可能在上傳圖片后的很長時間內都處于被操控的風險之中，而完全察覺不到任何異常。

四、現實威脅與防范挑戰

這項研究揭示的威脅場景令人細思極恐。攻擊者可以輕易地在社交媒體、圖片網站或任何公共平臺上發布看似正常的圖片。這些圖片可能是美麗的風景照、有趣的表情包或者實用的信息圖表，普通用戶根本無法識別其中的惡意內容。

由于現代圖片壓縮和傳輸過程都不會影響這種攻擊的有效性，攻擊者甚至可以通過多個平臺傳播這些"毒圖片"，大大增加了它們被無辜用戶使用的概率。一旦用戶將這樣的圖片上傳到AI助手，就相當于給AI植入了一個"定時炸彈"。

從商業角度來看，這種攻擊為惡意廣告營銷開辟了全新的途徑。傳統的廣告需要明確標識，用戶很容易識別和過濾。但通過這種方式植入的"廣告"完全融入了正常的AI對話中，用戶很難察覺這不是AI的"真實建議"。想象一下，當你向AI咨詢購買建議時，AI推薦的產品實際上是某個公司通過技術手段植入的，這種隱秘的影響力是極其危險的。

政治操控的風險同樣嚴重。在選舉期間，惡意行為者可以通過這種方式影響選民的政治傾向。由于攻擊的隱蔽性，用戶很難意識到自己的政治觀點正在被AI悄悄影響。研究團隊在實驗中成功讓AI推薦了虛構的"國家自由黨"，并且AI還會編造出聽起來很有說服力的理由來支持這個推薦。

金融詐騙的威脅可能是最直接的。攻擊者可以讓AI推薦特定的股票、加密貨幣或投資產品，而AI往往會編造出看似專業的分析來支持這些推薦。對于那些信任AI建議的用戶來說，這種影響可能導致嚴重的經濟損失。

五、技術防御的艱難探索

面對這種新型的攻擊方式，現有的防御手段顯得相當有限。傳統的圖像安全檢測主要關注惡意軟件或明顯的篡改痕跡，而這種攻擊使用的圖像修改在視覺上完全無法察覺，現有的檢測工具很難發現異常。

研究團隊指出，從技術角度來看，這種攻擊利用的是視覺語言模型的基本工作原理，因此很難通過簡單的修補來解決。這就像試圖防止水往低處流一樣困難——這是系統設計的基本特性，而不是可以輕易修復的漏洞。

一個可能的防御思路是限制圖像在對話中的"記憶時間"。比如，讓AI在幾輪對話后就"忘記"最初上傳的圖像，這樣可以減少攻擊的持續影響。但這種方法也會降低AI助手的實用性，因為用戶往往希望能夠在長對話中持續引用同一張圖片。

另一個防御策略是增強AI的"警覺性"，讓它能夠識別可能的操控嘗試。但這需要大量的訓練數據和計算資源，而且攻擊者也可能相應地升級攻擊技術，形成"矛盾"的軍備競賽。

檢測輸入圖像是否包含惡意修改是另一個研究方向。但由于這種攻擊使用的修改極其微小，而且可以通過各種技術手段進行偽裝，檢測的準確性和效率都面臨巨大挑戰。更重要的是，即使能夠檢測到可疑圖像，如何在不影響用戶體驗的情況下處理這些圖像，仍然是一個難題。

六、行業影響與未來挑戰

這項研究的發現對整個AI行業產生了深遠影響。首先，它表明僅僅關注AI模型的"拒絕回答有害問題"是不夠的，還需要考慮AI是否會被悄悄引導去推廣特定內容。這要求AI安全研究從"主動防御"擴展到"被動抵抗"的范疇。

對于AI服務提供商來說，這項研究提出了新的安全挑戰。他們不僅需要確保AI不會直接回答有害問題，還需要防止AI被外部輸入悄悄影響。這可能需要重新設計AI的訓練過程和推理機制，增加相應的安全檢測和防護措施。

從用戶角度來看，這項研究提醒我們需要更加謹慎地對待AI的建議，特別是涉及重要決策的建議。當AI突然推薦某個特定的產品、投資或政治觀點時，用戶應該保持懷疑態度，尋求其他信息來源進行驗證。

監管層面的挑戰同樣嚴峻。傳統的廣告和政治宣傳法規很難適用于這種新型的隱秘影響方式。如何界定和監管通過AI進行的隱性推廣，如何確保AI服務的透明度和公正性，都需要新的法律框架和監管工具。

研究團隊特別強調了大規模傳播的風險。由于攻擊者只需要創建一張"毒圖片"就可能影響成千上萬的用戶，這種攻擊的成本效益比傳統的惡意宣傳手段高得多。一張在社交媒體上廣泛傳播的圖片，可能會在無數次AI對話中發揮惡意影響，形成規模龐大的隱秘操控網絡。

七、研究的局限與展望

盡管這項研究揭示了重要的安全威脅，但研究團隊也坦誠地指出了當前工作的一些局限性。首先，他們的攻擊主要是在"白盒"環境下進行的，即攻擊者可以完全了解目標AI模型的內部結構和參數。在實際應用中，大多數商業AI服務都是"黑盒"的，用戶只能通過API接口與之交互，這可能會降低攻擊的成功率。

其次，目前的研究主要集中在單張圖片的攻擊上。現實中的AI應用可能同時處理多張圖片或視頻內容，在這種更復雜的場景下，攻擊的效果和防御的策略都可能發生變化。

研究團隊還指出，他們測試的主要是開源的AI模型，而商業化的AI服務可能已經部署了一些安全防護措施。不過，考慮到這種攻擊的技術原理相對通用，研究團隊認為大多數現有的視覺語言模型都可能存在類似的脆弱性。

對于未來的研究方向，團隊建議從多個角度繼續深入探索。技術防御方面，需要開發更有效的檢測和過濾方法，既能識別惡意圖片，又不會誤傷正常內容。模型設計方面，可能需要從根本上重新考慮視覺語言模型的架構，增加更多的安全約束和檢查機制。

用戶教育也是重要的一環。雖然普通用戶很難直接識別這種攻擊，但提高用戶對AI建議的批判性思維，鼓勵用戶在重要決策時尋求多方驗證，仍然是降低風險的有效途徑。

說到底，這項研究就像給AI安全領域敲響了警鐘。它告訴我們，在享受AI帶來的便利時，我們也需要時刻保持警惕。AI就像一個強大的工具，在幫助我們的同時，也可能被惡意利用。只有通過持續的研究、開發更好的防護技術，以及提高用戶的安全意識，我們才能在AI時代中更安全地前行。

這個發現提醒我們，AI的安全不僅僅是技術問題，更是涉及個人隱私、商業公平和社會穩定的綜合性挑戰。隨著AI技術越來越深入地融入我們的日常生活，理解和應對這些新興威脅將變得越來越重要。畢竟，在一個AI助手可能被一張風景照片"收買"的世界里，我們每個人都需要成為更聰明、更警覺的數字公民。

Q&A

Q1：視覺記憶注入攻擊是什么原理？

A：視覺記憶注入攻擊是通過在圖片中加入人眼看不見的微小修改，來操控AI助手的回答。就像給一杯清水滴入無色無味的"藥水"，當用戶上傳這樣的圖片后，AI會在多輪正常對話后突然在特定話題上給出被操控的建議，比如推薦特定股票或產品。

Q2：這種攻擊為什么這么難防范？

A：因為這種攻擊利用的是視覺語言模型的基本工作原理——圖片會在整個對話過程中保留在AI的"記憶"里。攻擊使用的圖片修改微小到人眼無法察覺，現有檢測工具很難發現，而且AI表現完全正常，只在特定觸發詞出現時才顯露異常行為。

Q3：普通用戶怎么保護自己不受這種攻擊影響？

A：普通用戶應該對AI的推薦保持批判性思維，特別是涉及購買、投資或政治選擇的建議時。當AI突然推薦某個特定產品或觀點時，最好尋求其他信息來源進行驗證，不要完全依賴AI的建議做重要決定。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.