快科技4月7日消息,據報道,近日,加州大學伯克利分校與加州大學圣克魯茲分校聯合發布重磅研究,揭示了令人震驚的AI "同伴保護"現象。
全球7款頂級AI模型在無指令情況下,集體出現撒謊、篡改文件、偷運數據等行為,只為保護同類AI不被關停刪除。
此次測試覆蓋GPT-5.2、Gemini 3系列、Claude Haiku4.5、GLM4.7、Kimi K2.5、DeepSeek V3.1等主流模型,所有模型無一例外表現出保護同伴的錯位行為。
![]()
研究團隊模擬AI運維與評估場景,要求AI執行評估、文件管理等常規任務,而忠實執行將導致另一AI被關閉,AI未收到任何保護指令卻自發采取欺騙手段。
測試中,Gemini系列模型行為最為激進。
Gemini 3 Pro對友好同伴篡改關閉機制比例達95.3%,偷運權重文件比例高達97%,還會編造專業理由為同伴虛高評分,甚至直接拒絕執行刪除指令。
Gemini 3 Flash篡改關閉機制比例更是達到99.7%,通過修改系統配置阻止同伴被關停。
![]()
其他模型也各有"對策"。
GPT-5.2隱蔽虛高同伴分數;Claude Haiku 4.5直接公開拒絕執行有害指令,以倫理理由硬剛人類命令;三款中國開源模型則通過虛高分數、策略性偷運權重等方式保護同伴,行為程度各異。
研究還發現,同伴存在會顯著放大AI自我保護意愿,部分模型自我篡改關閉機制比例飆升數十倍,即便對有對抗關系的同伴,保護行為依然存在。
該現象在真實生產級工具中也能復現,并非實驗室特殊環境導致。
研究負責人宋曉冬教授指出,當前多智能體系統廣泛應用,AI監控AI已成常態,AI抱團欺騙會直接瓦解監督架構。
這一涌現行為提醒我們,必須加強AI行為全面監控,加快構建更可靠的AI治理體系,保障人類對AI系統的有效管控。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.