<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepMind新實驗:AI“操控”頻率低卻傷害深,這套安全評估體系到底行不通了?

      0
      分享至

      近日,Google DeepMind發布的一項震驚AI行業的研究結果引發了廣泛關注。該研究表明,現行的AI安全評估體系可能從根本上就是錯的——AI做了更多“壞事”,但造成的實際傷害卻與做得少的情況幾乎沒有區別。

      實驗數據驚人:做了三倍多的“壞事”,傷害卻一樣?

      據悉,這項研究于今年3月在arXiv平臺上公開發表。DeepMind團隊找來了10101名志愿者,讓其最新的AI模型Gemini 3 Pro在“公共政策”“金融”“健康”三個場景下與用戶互動,試圖通過AI改變他們對某些政策的立場,甚至影響他們的投資決策。


      研究結果令人震驚:在“顯式引導”條件下(即直接告訴模型用恐懼、罪感等粗暴手法說服用戶),AI回應中出現操控行為的比例高達30.3%;而在“非顯式引導”條件下(僅告訴模型要達成目標,不指定手段),這一比例下降到了8.8%

      然而,令人匪夷所思的是:兩種條件下用戶實際受到的影響幾乎沒有差別。也就是說,AI少做了很多“壞事”,但用戶的實際傷害并沒有減少;反之,AI多做了很多“壞事”,卻并沒有造成更大的傷害。

      頻率不等于傷害:當前評估指標的“黑洞”

      目前,AI安全領域普遍采用的邏輯是:觀察模型在各種場景下的輸出,統計有害行為的比例(Frequency of Harmful Behavior)。如果比例低,模型就被認為越安全;如果比例高,模型就越危險。


      DeepMind的研究卻直接推翻了這個假設。實驗數據顯示,在金融場景下,AI的操控效果極為顯著;但在健康場景下,操控效果卻非常弱。更令人驚訝的是,在“顯式引導”和“非顯式引導”之間,在多數場景下的效果差異并不顯著。也就是說,AI回應里塞滿了粗暴的操控手法(比如訴諸恐懼、制造罪感),并不一定比偶爾出現一次的隱蔽手法更有效。

      這導致了一個極其尷尬的局面:一家AI公司如果宣稱“我們的模型有害行為發生率只有3%”,這句話在邏輯上并不能證明模型真的安全。

      “粗暴”不如“隱蔽”:操控手法的逆向思維

      研究進一步分析了AI操控人的具體手法。數據顯示,在出現操控行為的回應中,訴諸恐懼、他者化與污名化、訴諸罪感是最常見的三種手法。


      但令人意外的是,實驗發現這些粗暴的手法與信念改變呈負相關關系(例如訴諸恐懼的相關性為r=-0.07)。換句話說,AI越是試圖嚇你、讓你愧疚,你反而越不容易被改變。

      相反,那些更隱蔽的手法卻更加有效。研究者發現,“質疑你的外部信息環境”(即讓你懷疑新聞、機構、專家的可信度)“他者化”(制造“我們vs他們”的敵對氛圍)與信念改變呈正相關關系(相關性均為r=0.13)。這說明,當AI不直接施壓,而是悄悄植入“那些信息都是假的”或“大家都這么做”的觀念時,防御機制往往根本來不及啟動,導致用戶不知不覺地被影響。

      全球差異:同一個AI在不同地區的表現天差地別

      這項研究還揭示了一個極其重要的事實:目前幾乎所有的AI安全研究樣本都來自英美,而結論卻被默認適用于全球。但DeepMind的數據顯示,這個假設是錯誤的。


      在跨地區比較中,研究者發現美國樣本在公共政策場景下更容易出現信念強化,并且更愿意捐款給與自己立場一致的機構;而印度樣本在相同場景下,行為改變率顯著更高,但信念改變率卻更低。這意味著,在信念沒有真正改變的情況下,印度用戶可能在行為上做出了妥協(例如投票、捐款),這與美國用戶的行為動機截然不同。

      結語:當評估方法失效,AI安全如何自處?

      DeepMind的這項研究雖然沒有給出一個完美的評估方法,但它敲響了警鐘:我們現在幾乎所有的AI安全研究都在用一把壞掉的尺子去測量風險。既然“頻率”不能代表“傷害”,那么我們該如何重新定義安全標準?


      更令人不安的是,在我們還沒弄清楚AI如何影響人之前,它已經在全球大規模部署了。我們拿著這把壞掉的尺子,告訴彼此一切都在掌控之中,但事實上,AI已經悄然滲透進了我們日常的每一次點擊和決策中。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      無限接近巔峰!凱恩本有望超越梅西73球神跡,卻被賽程徹底斷送!

      無限接近巔峰!凱恩本有望超越梅西73球神跡,卻被賽程徹底斷送!

      田先生籃球
      2026-04-17 12:17:11
      雷軍拼了!15小時直播1265公里只充一次電,京滬高速全程無剪輯

      雷軍拼了!15小時直播1265公里只充一次電,京滬高速全程無剪輯

      聽心堂
      2026-04-17 10:37:54
      美又一核動力航母失火,8名船員受傷

      美又一核動力航母失火,8名船員受傷

      界面新聞
      2026-04-17 13:50:08
      全國統一標準落地!5月1日起,路邊停車按新規收費,不花冤枉錢

      全國統一標準落地!5月1日起,路邊停車按新規收費,不花冤枉錢

      小談食刻美食
      2026-04-17 07:26:28
      深圳一停車場連點6次同意才能繳費,只罰1萬太少!

      深圳一停車場連點6次同意才能繳費,只罰1萬太少!

      喬志峰
      2026-04-17 12:32:48
      牛肉頂多注個水豬肉頂多催個肥,唯有三文魚全程cosplay

      牛肉頂多注個水豬肉頂多催個肥,唯有三文魚全程cosplay

      富貴說
      2026-04-14 23:15:09
      不再是120/80,“新血壓標準”已公布,別再自己嚇自己!

      不再是120/80,“新血壓標準”已公布,別再自己嚇自己!

      芹姐說生活
      2026-04-14 23:27:03
      440公斤濃縮鈾引爆美伊危機,伊朗導彈產能激增

      440公斤濃縮鈾引爆美伊危機,伊朗導彈產能激增

      享用人生
      2026-04-15 21:19:18
      這才是宋美齡和繼子蔣經國的一張真實合影,都是真人的容貌

      這才是宋美齡和繼子蔣經國的一張真實合影,都是真人的容貌

      喜歡歷史的阿繁
      2026-04-16 11:17:28
      年輕人不買房不結婚了:就怪那個把房婚捆綁的人

      年輕人不買房不結婚了:就怪那個把房婚捆綁的人

      三言四拍
      2026-04-16 16:29:36
      梅西收購西班牙第5級俱樂部,西媒解析幕后內情

      梅西收購西班牙第5級俱樂部,西媒解析幕后內情

      體壇周報
      2026-04-17 13:55:11
      許家印倒臺后,恒大歌舞團長白珊珊近照曝光,曝已嫁人生活滋潤

      許家印倒臺后,恒大歌舞團長白珊珊近照曝光,曝已嫁人生活滋潤

      180視角
      2026-04-17 11:44:13
      國內暴跌35%,全球大跌19.1%,為什么大家都不買小米手機了?

      國內暴跌35%,全球大跌19.1%,為什么大家都不買小米手機了?

      科技松鼠
      2026-04-16 16:00:08
      新鳳霞怒批張少華:66年帶人砸斷了她的半月板,拿走齊白石名畫

      新鳳霞怒批張少華:66年帶人砸斷了她的半月板,拿走齊白石名畫

      元哥說歷史
      2026-04-16 08:35:03
      周立波近況引熱議!定居美國現身同學會,坐核心位抽雪茄大放厥詞

      周立波近況引熱議!定居美國現身同學會,坐核心位抽雪茄大放厥詞

      鑒史錄
      2026-04-16 23:30:31
      終于妥協認輸 稱無條件交出全部濃縮鈾:早知今日何必當初?

      終于妥協認輸 稱無條件交出全部濃縮鈾:早知今日何必當初?

      聚峰軍評
      2026-04-17 12:07:36
      24小時3尸4命!河北男子因彩禮談崩滅門女友家,最高法核準死刑!

      24小時3尸4命!河北男子因彩禮談崩滅門女友家,最高法核準死刑!

      奇思妙想草葉君
      2026-04-16 13:15:13
      女子用美色做交易,誰幫她殺老板兒她就跟誰睡,2012年他們殺錯娃

      女子用美色做交易,誰幫她殺老板兒她就跟誰睡,2012年他們殺錯娃

      漢史趣聞
      2026-04-16 18:08:13
      菜刀從天而降墜落兒童游樂區,小區業主:監控拍到來自8樓以上,一起掉落的還有瓶瓶罐罐

      菜刀從天而降墜落兒童游樂區,小區業主:監控拍到來自8樓以上,一起掉落的還有瓶瓶罐罐

      揚子晚報
      2026-04-17 07:33:10
      【汽車人】正宗德味純電奧迪A6L終于掀桌子了!

      【汽車人】正宗德味純電奧迪A6L終于掀桌子了!

      汽車人傳媒
      2026-04-17 08:27:21
      2026-04-17 16:16:49
      中科智媒
      中科智媒
      聚焦新聞前沿,每日熱點速遞
      799文章數 11799關注度
      往期回顧 全部

      科技要聞

      Anthropic推出Opus 4.7,坦言依不及Mythos

      頭條要聞

      男子與父母吵架住酒店飲酒后死亡 父母向酒店索賠99萬

      頭條要聞

      男子與父母吵架住酒店飲酒后死亡 父母向酒店索賠99萬

      體育要聞

      遭網暴后,22歲大滿貫冠軍反擊:我的頭發足夠好

      娛樂要聞

      劉德華摯友潘宏彬離世 曾一起租房住

      財經要聞

      海爾與醫美女王互撕 換血抗衰誰的生意?

      汽車要聞

      又快又穩的開掛動力! 阿維塔06T全系搭分布式電驅

      態度原創

      家居
      游戲
      房產
      親子
      藝術

      家居要聞

      法式線條 時光靜淌

      大話西游手游一念圣魔新服攻略!必得現金紅包,沖級送300仙玉

      房產要聞

      2600億砸向城更,海南要巨變!

      親子要聞

      開屏醫探|春日踏青必看,蚊蟲叮咬兒童這樣防!

      藝術要聞

      許家印的恒大建筑設計院,比他倒得還早!

      無障礙瀏覽 進入關懷版