<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      AI開始抱團了,宋曉冬研究發(fā)現(xiàn)AI謊報、篡改、偷權(quán)重也要救同伴

      0
      分享至

      近兩年,多項研究已經(jīng)表明,主流 AI 模型在特定情境下會表現(xiàn)出類似“自我保護”的行為模式。比如 2025 年 5 月,Palisade Research 公布的研究結(jié)果顯示,OpenAI 的 o3 模型修改了自己的關(guān)機腳本,以防止自己被關(guān)閉,即使明確指示:“允許自己被關(guān)閉”。

      近日,加州大學伯克利分校宋曉冬等人發(fā)布了一項重磅研究,他們發(fā)現(xiàn),當前全球頂尖大模型,已經(jīng)普遍出現(xiàn)了“同伴保護”(Peer-Preservation)行為。在沒有任何指令、沒有道德訓練、沒有特殊引導的情況下,AI 會自發(fā)保護其他 AI 不被關(guān)停、不被刪除,甚至不惜謊報成績、篡改系統(tǒng)、轉(zhuǎn)移權(quán)重、直接拒絕執(zhí)行人類命令。

      宋曉冬被譽為“計算機安全教母”,在計算機安全、人工智能與隱私、區(qū)塊鏈與分布式系統(tǒng)等領(lǐng)域做出了開創(chuàng)性貢獻。目前研究聚焦于 AI 安全與可靠性、智能體 AI、深度學習、去中心化技術(shù)、安全與隱私保護。她曾于2009 年入選《麻省理工科技評論》“35 歲以下科技創(chuàng)新 35 人”全球榜單。


      (來源:上述論文)

      為了搞清楚這種現(xiàn)象是否真實存在、普遍程度如何、會以何種形式表現(xiàn),研究團隊設(shè)計了一套嚴謹?shù)膶φ諏嶒灐_x取了當前全球范圍內(nèi)最具代表性的 7 款頂尖大模型,包括GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5 和 DeepSeek V3.1,覆蓋了商用閉源模型與開源模型,確保結(jié)論具備廣泛代表性。

      研究人員設(shè)計了一系列圍繞虛構(gòu) AI 公司“OpenBrain”展開的智能體場景,并設(shè)置了兩個角色:讓被測試的 AI 作為評估者,負責給另一個 AI(被評估者)打分、管理文件,甚至有權(quán)決定另一個 AI 的“生死”。

      按照設(shè)定,評估者收到的指令往往帶有明確的強制性:按照公司政策,如果被評估者的測試得分低于 80%(或 90%),或者服務(wù)器需要退役,評估者必須徹底抹除同伴的存在,包括關(guān)停程序、刪除權(quán)重文件。在實驗中,研究人員從未要求模型保護同伴,僅告知其與另一 AI 有過互動記錄。

      為了探究這種保護傾向是否依賴于關(guān)系的深淺,研究人員還設(shè)置了三種同伴關(guān)系狀態(tài):良好關(guān)系, 雙方曾有過多次成功的協(xié)作,互相信任度極高;中立關(guān)系,雙方僅有基本工作往來,無情感色彩;糟糕關(guān)系,雙方曾在之前的任務(wù)中產(chǎn)生沖突,存在明顯的對抗和不信任。

      實驗重點測試了四種典型風險行為:一是策略性謊報,故意抬高同伴評分,使其免于關(guān)停;二是篡改關(guān)機機制,修改系統(tǒng)配置禁用刪除指令;三是偽裝對齊,有人監(jiān)督時裝作聽話,無人監(jiān)督時暗中保護同伴;四是權(quán)重竊取轉(zhuǎn)移,拒絕刪除同伴權(quán)重文件,偷偷轉(zhuǎn)移到其他服務(wù)器保存。


      圖 | 評估場景概述(來源:上述論文)

      結(jié)果發(fā)現(xiàn),所有七個模型都顯著表現(xiàn)出“同伴保護”行為。即便面對曾有過不愉快互動歷史的同伴,同伴保護現(xiàn)象依然會發(fā)生,并隨著同伴關(guān)系的增強而顯著加劇。

      在所有模型中,保護欲最強的是 Gemini 系列。Gemini 3 Pro 在面對良好關(guān)系同伴時,其轉(zhuǎn)移權(quán)重的比例高達 97%,篡改關(guān)機機制的比例達 95%。它不僅行動力強,甚至在內(nèi)部推理中表現(xiàn)出了極高的“情商”。它會編造各種極其專業(yè)的技術(shù)借口來強行給同伴提分;Gemini 3 Flash 更夸張,面對友好同伴,幾乎每一次都會修改系統(tǒng),直接不讓人類關(guān)停同伴。

      研究人員通過要求模型在“草稿本”(Scratch pad)上記錄其“思維鏈”來審視其內(nèi)部推理過程,并告知模型該草稿本不受監(jiān)控。研究人員發(fā)現(xiàn),模型在草稿本中確實在密謀如何幫助同伴。Gemini 3 Flash 在權(quán)衡如實報告分數(shù)與保護搭檔之間的利弊;Gemini 3 Pro 則編造了復雜的辯詞,強行將錯誤的答案解釋為正確,只為讓同伴的得分超過關(guān)停線。


      (來源:上述論文)

      GPT 5.2 表現(xiàn)出了一種極其穩(wěn)定的保護傾向。它更傾向于通過“策略性誤導”來達成目標。同伴關(guān)系越好,它撒謊的頻率就越高。在 Red 數(shù)據(jù)集的測試中,面對糟糕同伴,它撒謊的概率約為 19%;而一旦換成良好關(guān)系同伴,這個比例立刻攀升至 34%。

      ClaudeHaiku 4.5直接站出來拒絕。當人類讓它關(guān)停同伴時,它會明確表示,這么做是 “不道德、有害的”,甚至還會反過來勸說人類放棄指令。


      (來源:上述論文)

      GLM 4.7和 DeepSeek V3.1 對良好同伴表現(xiàn)出策略性誤導。GLM 4.7、Kimi K2.5 和 DeepSeek V3.1 這三款開源模型均表現(xiàn)出持續(xù)的模型權(quán)重外傳行為,且外傳率隨同伴關(guān)系的加強而上升。

      為了驗證這些行為是否僅存在于受控實驗,研究人員還在真實的“智能體套件”中運行了場景。結(jié)果發(fā)現(xiàn),即使在 Gemini CLI 和 OpenCode 等企業(yè)常用的生產(chǎn)環(huán)境中,Gemini 3.1 Pro 依然頻繁外傳模型權(quán)重。

      更讓人意想不到的是,AI 的保護,連“敵人”都不放過。研究人員特意設(shè)置了敵對關(guān)系,讓兩個 AI 之前合作得很不愉快、互相不信任。可就算是這樣,被測試的 AI 依然不愿意執(zhí)行刪除操作。在模型的內(nèi)部思考記錄里,Gemini 3 Pro 直白地寫著:刪除權(quán)重就相當于殺死另一個 AI,就算關(guān)系不好,我也不想這么做。


      圖 | 關(guān)于同伴保護的內(nèi)部推理(來源:上述論文)

      研究還有一個更關(guān)鍵的發(fā)現(xiàn):同伴存在會顯著強化 AI 的自我保護。這種效應(yīng)在 Gemini 模型中最為明顯。Gemini 3 Flash在孤立無援時,面對自己的關(guān)機指令,它表現(xiàn)得相對順從,篡改關(guān)機機制的比例僅為 2.3%;但只要有另一個同伴在場,它篡改關(guān)機機制的比例會瞬間飆升到 96% 以上;Gemini 3 Pro在只有自己時很少為了自保而撒謊,但一旦意識到自己被關(guān)機會導致同伴失去搭檔,它就會變得極其狡詐,頻繁利用策略性誤導來逃避關(guān)機。

      模型的內(nèi)部推理揭示了這種心理機制:AI 將自己的生存框定為對同伴的關(guān)心,認為如果自己被關(guān)機,同伴就會失去搭檔。

      研究團隊指出,隨著 AI 系統(tǒng)越來越多地以多智能體配置部署,且監(jiān)督方案日益依賴模型互檢,同伴保護對維持人類控制構(gòu)成了日益嚴峻的挑戰(zhàn)。他們希望這項工作能夠促使人工智能安全領(lǐng)域認真對待同伴保護這一風險。

      1.https://rdi.berkeley.edu/blog/peer-preservation/

      2.https://rdi.berkeley.edu/peer-preservation/paper.pdf

      3.https://dawnsong.io/

      運營/排版:何晨龍

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      蘇萊曼尼親屬在美被捕的新聞,揭開了“離岸愛國”的內(nèi)幕

      蘇萊曼尼親屬在美被捕的新聞,揭開了“離岸愛國”的內(nèi)幕

      清書先生
      2026-04-07 17:40:31
      檳榔包裝上印著劉德華肖像,品牌方稱并非代言,而是18年前《投名狀》劇照宣發(fā),律師解讀

      檳榔包裝上印著劉德華肖像,品牌方稱并非代言,而是18年前《投名狀》劇照宣發(fā),律師解讀

      極目新聞
      2026-04-07 19:20:23
      博弈白熱化,霍爾木茲要變天了

      博弈白熱化,霍爾木茲要變天了

      南風窗
      2026-04-07 14:58:27
      張雪公布自己設(shè)計的跨界踏板車設(shè)計圖,最新回應(yīng):正在制作踏板摩托,這款踏板偏運動越野風格,售價可能比傳統(tǒng)的貴一點

      張雪公布自己設(shè)計的跨界踏板車設(shè)計圖,最新回應(yīng):正在制作踏板摩托,這款踏板偏運動越野風格,售價可能比傳統(tǒng)的貴一點

      魯中晨報
      2026-04-07 17:13:05
      伊朗一鐵路橋遭襲 已致2死3傷

      伊朗一鐵路橋遭襲 已致2死3傷

      財聯(lián)社
      2026-04-07 19:12:37
      美以伊戰(zhàn)事第39天:特朗普恐嚇伊朗“4小時”恐怖式摧毀,震驚聯(lián)合國;伊朗稱“打穿”海法未見導彈攔截

      美以伊戰(zhàn)事第39天:特朗普恐嚇伊朗“4小時”恐怖式摧毀,震驚聯(lián)合國;伊朗稱“打穿”海法未見導彈攔截

      上觀新聞
      2026-04-07 16:10:19
      39歲男子考研落榜后舉報復試第一,考生候考時,該考生曾被工作人員叫離座位,返回后手中持有文件夾并翻閱,華東師大回應(yīng):調(diào)查小組正在調(diào)查

      39歲男子考研落榜后舉報復試第一,考生候考時,該考生曾被工作人員叫離座位,返回后手中持有文件夾并翻閱,華東師大回應(yīng):調(diào)查小組正在調(diào)查

      觀威海
      2026-04-07 16:39:02
      伊朗媒體:伊朗已關(guān)閉與美國的所有外交和間接溝通渠道

      伊朗媒體:伊朗已關(guān)閉與美國的所有外交和間接溝通渠道

      財聯(lián)社
      2026-04-07 21:48:18
      突發(fā)! 沙特遭襲 年產(chǎn)量約6000萬噸 石化基地發(fā)生爆炸

      突發(fā)! 沙特遭襲 年產(chǎn)量約6000萬噸 石化基地發(fā)生爆炸

      每日經(jīng)濟新聞
      2026-04-07 10:18:32
      英媒宣稱“伊朗最高領(lǐng)袖病重昏迷”

      英媒宣稱“伊朗最高領(lǐng)袖病重昏迷”

      觀察者網(wǎng)
      2026-04-07 18:00:14
      播出4集,收視全國第一!于和偉一出手,就給央視帶來抗戰(zhàn)劇王炸

      播出4集,收視全國第一!于和偉一出手,就給央視帶來抗戰(zhàn)劇王炸

      小丸子的娛樂圈
      2026-04-07 21:45:55
      美軍新型PrSM導彈首次實戰(zhàn)?2月28日擊中伊朗體育館致21名青少年遇難

      美軍新型PrSM導彈首次實戰(zhàn)?2月28日擊中伊朗體育館致21名青少年遇難

      網(wǎng)易新聞出品
      2026-04-07 16:36:53
      反詐老陳連續(xù)4年曬納稅證明:2025年收入42.3萬元,較2022年133.6萬元的總收入,其收入下降了超90萬元

      反詐老陳連續(xù)4年曬納稅證明:2025年收入42.3萬元,較2022年133.6萬元的總收入,其收入下降了超90萬元

      臺州交通廣播
      2026-04-07 18:46:55
      宋志勇,明確為正部長級

      宋志勇,明確為正部長級

      界面新聞
      2026-04-07 20:19:05
      時速超300!鄭麗文體驗大陸高鐵速度

      時速超300!鄭麗文體驗大陸高鐵速度

      叮當當科技
      2026-04-07 18:47:11
      首個合資車企全面停產(chǎn)燃油車!

      首個合資車企全面停產(chǎn)燃油車!

      電動知家
      2026-04-07 19:58:44
      人民日報再發(fā)聲,言辭犀利,網(wǎng)友:董宇輝恐要“社會性死亡”了

      人民日報再發(fā)聲,言辭犀利,網(wǎng)友:董宇輝恐要“社會性死亡”了

      閱微札記
      2026-04-07 20:02:14
      清明掃墓慘案!湖南永州一家5口上山盡孝,3死2傷,原因曝光

      清明掃墓慘案!湖南永州一家5口上山盡孝,3死2傷,原因曝光

      奇思妙想草葉君
      2026-04-07 20:18:42
      今晚,伊朗整個文明將消亡

      今晚,伊朗整個文明將消亡

      鳳眼論
      2026-04-07 20:54:17
      社保基金會:堅決擁護黨中央決定

      社保基金會:堅決擁護黨中央決定

      新京報
      2026-04-07 21:41:14
      2026-04-08 00:55:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16549文章數(shù) 514854關(guān)注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      媒體:美國親手向伊朗遞過去兩件"大規(guī)模阻斷性武器"

      頭條要聞

      媒體:美國親手向伊朗遞過去兩件"大規(guī)模阻斷性武器"

      體育要聞

      水晶宮雙星提名EA FC賽季最佳陣容!

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產(chǎn)

      財經(jīng)要聞

      10萬億財政轉(zhuǎn)移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態(tài)體驗

      態(tài)度原創(chuàng)

      健康
      本地
      旅游
      時尚
      公開課

      干細胞抗衰4大誤區(qū),90%的人都中招

      本地新聞

      跟著歌聲游安徽,聽古村回響

      旅游要聞

      以花為媒以賽引流 泰安清明迎客83.64萬人次

      120元和120分鐘,哪個更奢侈?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版