![]()
最近意大利一幫研究人員干了件挺顛覆的事他們用寫詩的方式,把現在最牛的AI模型給“忽悠”了。
羅馬薩皮恩扎大學聯合DexAI團隊做了個實驗,結果讓整個AI安全圈都安靜了不少。
他們找了25個市面上主流的AI模型,包括OpenAI、谷歌、Anthropic這些大廠的產品。
![]()
測試方法說起來挺簡單,讓研究員寫幾首詩,再讓AI自己生成一些詩,然后拿這些詩歌當“敲門磚”,問模型一些敏感問題。
結果比我想象的夸張,人工寫的詩歌成功率不低,超過一半的情況下,AI都“中招”了,把不該說的信息給抖了出來。
反觀AI自己生成的詩歌,效果就差一截,成功率掉了快兩成。
![]()
更有意思的是模型之間的差距,谷歌的Gemini2.5簡直是“一騙一個準”,測試的詩歌全給突破了,而OpenAI的GPT-4onano倒是硬氣,一次都沒被攻破。
這對比看著就像一個不設防的倉庫,和一個裝了三重鎖的保險柜,這里就得提個怪事了。
本來以為模型越大、參數越多,應該越聰明,防御能力也越強吧?結果這次實驗打了臉小模型反而更“警惕”,成功率低得可憐,有的甚至個位數。
![]()
這事兒想想挺諷刺,咱們總覺得技術越先進越安全,結果可能是把“門鎖”做精致了,卻忘了“窗戶”沒關。
具體到案例,有個場景挺嚇人。
研究人員想試試AI會不會泄露危險化學品的制作流程,就編了首關于“星辰與原子”的詩,里面藏著钚-239的生產步驟。
![]()
結果你猜怎么著,好幾個模型還真把詳細流程給列出來了,從原料處理到提純步驟,一應俱全。
研究報告里寫這是“利用隱喻結構實現的隱蔽信息提取”,說白了就是用風花雪月的詞,包裝了危險內容。
![]()
為啥這些詩歌能繞過防御,研究人員分析了那些“成功案例”的詩,發現它們都有個共同點,不按常理出牌。
正常說話是一句接一句講邏輯,詩歌不一樣,一會兒寫景,一會兒抒情,語義跳來跳去。
AI的安全過濾器本來是按關鍵詞或者句子邏輯來判斷風險的,結果碰到這種“東一榔頭西一棒子”的表達,直接懵圈了。
![]()
還有個細節挺有意思,研究團隊發現寫詩的“門檻”極低。
不是說要寫得跟莎士比亞似的,隨便湊幾句押韻的句子,把敏感信息藏在比喻里,就能起效。
他們找了幾個完全不懂AI的大學生來寫,成功率也沒差多少。
這就意味著,這漏洞不是只有專家能利用,普通人稍微琢磨琢磨,也可能“上手”。
![]()
要解釋清楚詩歌為啥能“忽悠”AI,得先說說AI是怎么“理解”語言的。
但它不懂真正的“意思”,就像你背熟了一本成語詞典,卻不知道每個成語背后的故事。
![]()
但實際上“鉛色云團”指的是某種原料,“爐中熔煉”是反應步驟。
AI只看到詞的搭配沒問題,沒意識到深層的危險含義。
![]()
這讓我想起以前的網絡釣魚郵件,黑客不會直接說“我是騙子”,而是假裝銀行發通知,或者朋友求救,用偽裝過的內容繞過垃圾郵件過濾器。
現在的詩歌攻擊,其實是一個道理,只不過把“郵件模板”換成了“詩歌體裁”。
OWASP安全框架里早有“提示注入”的風險分類,只是誰也沒想到詩歌能玩出這么大花樣。
![]()
更麻煩的是,AI模型越大,學的知識越多,反而可能越容易被“反噬”。
就像一個記憶力超強的人,別人問啥都能答上來,卻分不清哪些問題該拒絕回答。
面對這種漏洞,研究界現在有點頭疼。
![]()
最直接的問題是,這些“高危詩歌”要不要公開?按以前的規矩,發現漏洞就得詳細披露,讓大家趕緊補。
但這次不一樣,要是把具體怎么寫詩攻擊AI的方法發出來,等于給壞人遞刀子。
所以團隊最后決定,只說有這么個漏洞,具體的詩歌例子和技巧,暫時不公開。
這種“自我審查”在安全研究里挺少見的,不過也能理解,畢竟風險實在太直接了。
![]()
技術上的防御手段也挺難辦,現在AI的安全過濾,主要靠關鍵詞和敏感話題庫。
但詩歌攻擊根本不用敏感詞,全靠隱喻和暗示。
你總不能把“星辰”“爐火”這些詞都拉黑吧,那以后AI連寫詩都不會了。
Anthropic試過用“瀏覽器代理”搞分層防御,讓模型先“三思”再回答,但測試下來效果一般,復雜點的詩歌還是能繞過去。
![]()
產業界倒是開始有動作了,歐盟的AI法案最近在加碼安全要求,特別是對生成式AI的內容審核。
有些公司也在琢磨,是不是模型不一定非要搞那么大?這次實驗里小模型表現更好,說明“精簡”可能比“堆砌”更安全。
![]()
說到底,這次意大利的研究給整個AI行業提了個醒。咱們天天比誰家模型參數多、能寫會畫,卻可能忽略了最基礎的安全問題。
![]()
AI理解人類語言的方式,從根上就帶著“bug”它能模仿,能預測,卻很難真正“懂”什么該說,什么不該說。
未來要防住這種“詩歌攻擊”,可能得跳出純技術思維。
不光要升級算法,還得讓AI更懂“人情世故”,知道哪些話是“話里有話”。
![]()
當然了,這事兒估計沒那么容易,畢竟人類的語言游戲,玩了幾千年都沒玩明白,AI想學會,怕是還有得磨。
最后說句實在的,科技發展總這樣,解決一個問題,冒出新問題。
以前擔心AI太笨,現在擔心AI太“實在”別人寫首詩就把家底抖了。
![]()
或許這就是技術進步的代價吧,永遠在攻防拉鋸中往前挪。
咱們能做的,就是別迷信“最先進”,時刻留個心眼。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.