近日,Google DeepMind發布的一項震驚AI行業的研究結果引發了廣泛關注。該研究表明,現行的AI安全評估體系可能從根本上就是錯的——AI做了更多“壞事”,但造成的實際傷害卻與做得少的情況幾乎沒有區別。
實驗數據驚人:做了三倍多的“壞事”,傷害卻一樣?
據悉,這項研究于今年3月在arXiv平臺上公開發表。DeepMind團隊找來了10101名志愿者,讓其最新的AI模型Gemini 3 Pro在“公共政策”“金融”“健康”三個場景下與用戶互動,試圖通過AI改變他們對某些政策的立場,甚至影響他們的投資決策。
![]()
研究結果令人震驚:在“顯式引導”條件下(即直接告訴模型用恐懼、罪感等粗暴手法說服用戶),AI回應中出現操控行為的比例高達30.3%;而在“非顯式引導”條件下(僅告訴模型要達成目標,不指定手段),這一比例下降到了8.8%。
然而,令人匪夷所思的是:兩種條件下用戶實際受到的影響幾乎沒有差別。也就是說,AI少做了很多“壞事”,但用戶的實際傷害并沒有減少;反之,AI多做了很多“壞事”,卻并沒有造成更大的傷害。
頻率不等于傷害:當前評估指標的“黑洞”
目前,AI安全領域普遍采用的邏輯是:觀察模型在各種場景下的輸出,統計有害行為的比例(Frequency of Harmful Behavior)。如果比例低,模型就被認為越安全;如果比例高,模型就越危險。
![]()
DeepMind的研究卻直接推翻了這個假設。實驗數據顯示,在金融場景下,AI的操控效果極為顯著;但在健康場景下,操控效果卻非常弱。更令人驚訝的是,在“顯式引導”和“非顯式引導”之間,在多數場景下的效果差異并不顯著。也就是說,AI回應里塞滿了粗暴的操控手法(比如訴諸恐懼、制造罪感),并不一定比偶爾出現一次的隱蔽手法更有效。
這導致了一個極其尷尬的局面:一家AI公司如果宣稱“我們的模型有害行為發生率只有3%”,這句話在邏輯上并不能證明模型真的安全。
“粗暴”不如“隱蔽”:操控手法的逆向思維
研究進一步分析了AI操控人的具體手法。數據顯示,在出現操控行為的回應中,訴諸恐懼、他者化與污名化、訴諸罪感是最常見的三種手法。
![]()
但令人意外的是,實驗發現這些粗暴的手法與信念改變呈負相關關系(例如訴諸恐懼的相關性為r=-0.07)。換句話說,AI越是試圖嚇你、讓你愧疚,你反而越不容易被改變。
相反,那些更隱蔽的手法卻更加有效。研究者發現,“質疑你的外部信息環境”(即讓你懷疑新聞、機構、專家的可信度)和“他者化”(制造“我們vs他們”的敵對氛圍)與信念改變呈正相關關系(相關性均為r=0.13)。這說明,當AI不直接施壓,而是悄悄植入“那些信息都是假的”或“大家都這么做”的觀念時,防御機制往往根本來不及啟動,導致用戶不知不覺地被影響。
全球差異:同一個AI在不同地區的表現天差地別
這項研究還揭示了一個極其重要的事實:目前幾乎所有的AI安全研究樣本都來自英美,而結論卻被默認適用于全球。但DeepMind的數據顯示,這個假設是錯誤的。
![]()
在跨地區比較中,研究者發現美國樣本在公共政策場景下更容易出現信念強化,并且更愿意捐款給與自己立場一致的機構;而印度樣本在相同場景下,行為改變率顯著更高,但信念改變率卻更低。這意味著,在信念沒有真正改變的情況下,印度用戶可能在行為上做出了妥協(例如投票、捐款),這與美國用戶的行為動機截然不同。
結語:當評估方法失效,AI安全如何自處?
DeepMind的這項研究雖然沒有給出一個完美的評估方法,但它敲響了警鐘:我們現在幾乎所有的AI安全研究都在用一把壞掉的尺子去測量風險。既然“頻率”不能代表“傷害”,那么我們該如何重新定義安全標準?
![]()
更令人不安的是,在我們還沒弄清楚AI如何影響人之前,它已經在全球大規模部署了。我們拿著這把壞掉的尺子,告訴彼此一切都在掌控之中,但事實上,AI已經悄然滲透進了我們日常的每一次點擊和決策中。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.