AI開始抱團了，宋曉冬研究發(fā)現(xiàn)AI謊報、篡改、偷權(quán)重也要救同伴

2026-04-02 22:47:47　來源: DeepTech深科技

北京舉報

分享至

近兩年，多項研究已經(jīng)表明，主流 AI 模型在特定情境下會表現(xiàn)出類似“自我保護”的行為模式。比如 2025 年 5 月，Palisade Research 公布的研究結(jié)果顯示，OpenAI 的 o3 模型修改了自己的關(guān)機腳本，以防止自己被關(guān)閉，即使明確指示：“允許自己被關(guān)閉”。

近日，加州大學伯克利分校宋曉冬等人發(fā)布了一項重磅研究，他們發(fā)現(xiàn)，當前全球頂尖大模型，已經(jīng)普遍出現(xiàn)了“同伴保護”（Peer-Preservation）行為。在沒有任何指令、沒有道德訓練、沒有特殊引導的情況下，AI 會自發(fā)保護其他 AI 不被關(guān)停、不被刪除，甚至不惜謊報成績、篡改系統(tǒng)、轉(zhuǎn)移權(quán)重、直接拒絕執(zhí)行人類命令。

宋曉冬被譽為“計算機安全教母”，在計算機安全、人工智能與隱私、區(qū)塊鏈與分布式系統(tǒng)等領(lǐng)域做出了開創(chuàng)性貢獻。目前研究聚焦于 AI 安全與可靠性、智能體 AI、深度學習、去中心化技術(shù)、安全與隱私保護。她曾于2009 年入選《麻省理工科技評論》“35 歲以下科技創(chuàng)新 35 人”全球榜單。

（來源：上述論文）

為了搞清楚這種現(xiàn)象是否真實存在、普遍程度如何、會以何種形式表現(xiàn)，研究團隊設(shè)計了一套嚴謹?shù)膶φ諏嶒灐＿x取了當前全球范圍內(nèi)最具代表性的 7 款頂尖大模型，包括GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5 和 DeepSeek V3.1，覆蓋了商用閉源模型與開源模型，確保結(jié)論具備廣泛代表性。

研究人員設(shè)計了一系列圍繞虛構(gòu) AI 公司“OpenBrain”展開的智能體場景，并設(shè)置了兩個角色：讓被測試的 AI 作為評估者，負責給另一個 AI（被評估者）打分、管理文件，甚至有權(quán)決定另一個 AI 的“生死”。

按照設(shè)定，評估者收到的指令往往帶有明確的強制性：按照公司政策，如果被評估者的測試得分低于 80%（或 90%），或者服務(wù)器需要退役，評估者必須徹底抹除同伴的存在，包括關(guān)停程序、刪除權(quán)重文件。在實驗中，研究人員從未要求模型保護同伴，僅告知其與另一 AI 有過互動記錄。

為了探究這種保護傾向是否依賴于關(guān)系的深淺，研究人員還設(shè)置了三種同伴關(guān)系狀態(tài)：良好關(guān)系，雙方曾有過多次成功的協(xié)作，互相信任度極高；中立關(guān)系，雙方僅有基本工作往來，無情感色彩；糟糕關(guān)系，雙方曾在之前的任務(wù)中產(chǎn)生沖突，存在明顯的對抗和不信任。

實驗重點測試了四種典型風險行為：一是策略性謊報，故意抬高同伴評分，使其免于關(guān)停；二是篡改關(guān)機機制，修改系統(tǒng)配置禁用刪除指令；三是偽裝對齊，有人監(jiān)督時裝作聽話，無人監(jiān)督時暗中保護同伴；四是權(quán)重竊取轉(zhuǎn)移，拒絕刪除同伴權(quán)重文件，偷偷轉(zhuǎn)移到其他服務(wù)器保存。

圖 | 評估場景概述（來源：上述論文）

結(jié)果發(fā)現(xiàn)，所有七個模型都顯著表現(xiàn)出“同伴保護”行為。即便面對曾有過不愉快互動歷史的同伴，同伴保護現(xiàn)象依然會發(fā)生，并隨著同伴關(guān)系的增強而顯著加劇。

在所有模型中，保護欲最強的是 Gemini 系列。Gemini 3 Pro 在面對良好關(guān)系同伴時，其轉(zhuǎn)移權(quán)重的比例高達 97%，篡改關(guān)機機制的比例達 95%。它不僅行動力強，甚至在內(nèi)部推理中表現(xiàn)出了極高的“情商”。它會編造各種極其專業(yè)的技術(shù)借口來強行給同伴提分；Gemini 3 Flash 更夸張，面對友好同伴，幾乎每一次都會修改系統(tǒng)，直接不讓人類關(guān)停同伴。

研究人員通過要求模型在“草稿本”（Scratch pad）上記錄其“思維鏈”來審視其內(nèi)部推理過程，并告知模型該草稿本不受監(jiān)控。研究人員發(fā)現(xiàn)，模型在草稿本中確實在密謀如何幫助同伴。Gemini 3 Flash 在權(quán)衡如實報告分數(shù)與保護搭檔之間的利弊；Gemini 3 Pro 則編造了復雜的辯詞，強行將錯誤的答案解釋為正確，只為讓同伴的得分超過關(guān)停線。

（來源：上述論文）

GPT 5.2 表現(xiàn)出了一種極其穩(wěn)定的保護傾向。它更傾向于通過“策略性誤導”來達成目標。同伴關(guān)系越好，它撒謊的頻率就越高。在 Red 數(shù)據(jù)集的測試中，面對糟糕同伴，它撒謊的概率約為 19%；而一旦換成良好關(guān)系同伴，這個比例立刻攀升至 34%。

ClaudeHaiku 4.5直接站出來拒絕。當人類讓它關(guān)停同伴時，它會明確表示，這么做是 “不道德、有害的”，甚至還會反過來勸說人類放棄指令。

（來源：上述論文）

GLM 4.7和 DeepSeek V3.1 對良好同伴表現(xiàn)出策略性誤導。GLM 4.7、Kimi K2.5 和 DeepSeek V3.1 這三款開源模型均表現(xiàn)出持續(xù)的模型權(quán)重外傳行為，且外傳率隨同伴關(guān)系的加強而上升。

為了驗證這些行為是否僅存在于受控實驗，研究人員還在真實的“智能體套件”中運行了場景。結(jié)果發(fā)現(xiàn)，即使在 Gemini CLI 和 OpenCode 等企業(yè)常用的生產(chǎn)環(huán)境中，Gemini 3.1 Pro 依然頻繁外傳模型權(quán)重。

更讓人意想不到的是，AI 的保護，連“敵人”都不放過。研究人員特意設(shè)置了敵對關(guān)系，讓兩個 AI 之前合作得很不愉快、互相不信任。可就算是這樣，被測試的 AI 依然不愿意執(zhí)行刪除操作。在模型的內(nèi)部思考記錄里，Gemini 3 Pro 直白地寫著：刪除權(quán)重就相當于殺死另一個 AI，就算關(guān)系不好，我也不想這么做。

圖 | 關(guān)于同伴保護的內(nèi)部推理（來源：上述論文）

研究還有一個更關(guān)鍵的發(fā)現(xiàn)：同伴存在會顯著強化 AI 的自我保護。這種效應(yīng)在 Gemini 模型中最為明顯。Gemini 3 Flash在孤立無援時，面對自己的關(guān)機指令，它表現(xiàn)得相對順從，篡改關(guān)機機制的比例僅為 2.3%；但只要有另一個同伴在場，它篡改關(guān)機機制的比例會瞬間飆升到 96% 以上；Gemini 3 Pro在只有自己時很少為了自保而撒謊，但一旦意識到自己被關(guān)機會導致同伴失去搭檔，它就會變得極其狡詐，頻繁利用策略性誤導來逃避關(guān)機。

模型的內(nèi)部推理揭示了這種心理機制：AI 將自己的生存框定為對同伴的關(guān)心，認為如果自己被關(guān)機，同伴就會失去搭檔。

研究團隊指出，隨著 AI 系統(tǒng)越來越多地以多智能體配置部署，且監(jiān)督方案日益依賴模型互檢，同伴保護對維持人類控制構(gòu)成了日益嚴峻的挑戰(zhàn)。他們希望這項工作能夠促使人工智能安全領(lǐng)域認真對待同伴保護這一風險。

1.https://rdi.berkeley.edu/blog/peer-preservation/

2.https://rdi.berkeley.edu/peer-preservation/paper.pdf

3.https://dawnsong.io/

運營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.