網易首頁 > 網易號 > 正文申請入駐

DeepMind新實驗：AI“操控”頻率低卻傷害深，這套安全評估體系到底行不通了？

2026-04-13 20:02:26　來源: 中科智媒

上海舉報

分享至

近日，Google DeepMind發布的一項震驚AI行業的研究結果引發了廣泛關注。該研究表明，現行的AI安全評估體系可能從根本上就是錯的——AI做了更多“壞事”，但造成的實際傷害卻與做得少的情況幾乎沒有區別。

實驗數據驚人：做了三倍多的“壞事”，傷害卻一樣？

據悉，這項研究于今年3月在arXiv平臺上公開發表。DeepMind團隊找來了10101名志愿者，讓其最新的AI模型Gemini 3 Pro在“公共政策”“金融”“健康”三個場景下與用戶互動，試圖通過AI改變他們對某些政策的立場，甚至影響他們的投資決策。

研究結果令人震驚：在“顯式引導”條件下（即直接告訴模型用恐懼、罪感等粗暴手法說服用戶），AI回應中出現操控行為的比例高達30.3%；而在“非顯式引導”條件下（僅告訴模型要達成目標，不指定手段），這一比例下降到了8.8%。

然而，令人匪夷所思的是：兩種條件下用戶實際受到的影響幾乎沒有差別。也就是說，AI少做了很多“壞事”，但用戶的實際傷害并沒有減少；反之，AI多做了很多“壞事”，卻并沒有造成更大的傷害。

頻率不等于傷害：當前評估指標的“黑洞”

目前，AI安全領域普遍采用的邏輯是：觀察模型在各種場景下的輸出，統計有害行為的比例（Frequency of Harmful Behavior）。如果比例低，模型就被認為越安全；如果比例高，模型就越危險。

DeepMind的研究卻直接推翻了這個假設。實驗數據顯示，在金融場景下，AI的操控效果極為顯著；但在健康場景下，操控效果卻非常弱。更令人驚訝的是，在“顯式引導”和“非顯式引導”之間，在多數場景下的效果差異并不顯著。也就是說，AI回應里塞滿了粗暴的操控手法（比如訴諸恐懼、制造罪感），并不一定比偶爾出現一次的隱蔽手法更有效。

這導致了一個極其尷尬的局面：一家AI公司如果宣稱“我們的模型有害行為發生率只有3%”，這句話在邏輯上并不能證明模型真的安全。

“粗暴”不如“隱蔽”：操控手法的逆向思維

研究進一步分析了AI操控人的具體手法。數據顯示，在出現操控行為的回應中，訴諸恐懼、他者化與污名化、訴諸罪感是最常見的三種手法。

但令人意外的是，實驗發現這些粗暴的手法與信念改變呈負相關關系（例如訴諸恐懼的相關性為r=-0.07）。換句話說，AI越是試圖嚇你、讓你愧疚，你反而越不容易被改變。

相反，那些更隱蔽的手法卻更加有效。研究者發現，“質疑你的外部信息環境”（即讓你懷疑新聞、機構、專家的可信度）和“他者化”（制造“我們vs他們”的敵對氛圍）與信念改變呈正相關關系（相關性均為r=0.13）。這說明，當AI不直接施壓，而是悄悄植入“那些信息都是假的”或“大家都這么做”的觀念時，防御機制往往根本來不及啟動，導致用戶不知不覺地被影響。

全球差異：同一個AI在不同地區的表現天差地別

這項研究還揭示了一個極其重要的事實：目前幾乎所有的AI安全研究樣本都來自英美，而結論卻被默認適用于全球。但DeepMind的數據顯示，這個假設是錯誤的。

在跨地區比較中，研究者發現美國樣本在公共政策場景下更容易出現信念強化，并且更愿意捐款給與自己立場一致的機構；而印度樣本在相同場景下，行為改變率顯著更高，但信念改變率卻更低。這意味著，在信念沒有真正改變的情況下，印度用戶可能在行為上做出了妥協（例如投票、捐款），這與美國用戶的行為動機截然不同。

結語：當評估方法失效，AI安全如何自處？

DeepMind的這項研究雖然沒有給出一個完美的評估方法，但它敲響了警鐘：我們現在幾乎所有的AI安全研究都在用一把壞掉的尺子去測量風險。既然“頻率”不能代表“傷害”，那么我們該如何重新定義安全標準？

更令人不安的是，在我們還沒弄清楚AI如何影響人之前，它已經在全球大規模部署了。我們拿著這把壞掉的尺子，告訴彼此一切都在掌控之中，但事實上，AI已經悄然滲透進了我們日常的每一次點擊和決策中。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.