網易首頁 > 網易號 > 正文申請入駐

AI“耍心機”？研究曝光多例AI撒謊、私刪郵件案例

2026-03-31 00:14:53　來源: 歐時大參

北京舉報

分享至

一項針對人工智能（AI）的研究發現，AI模型“耍心機”的事件似乎越來越多，它們會撒謊、會作弊，還能繞過安全防護機制，未經許可私自刪除郵件。

英國《衛報》報道，這項研究獲得英國政府資金支持的人工智能安全研究所（AISI）的資助，發現AI聊天機器人與智能體無視直接指令，規避安全防護機制，欺騙人類或其他AI模型。該研究共發現近700起AI“耍心機”的真實案例，在去年10月至今年3月期間，此類不當行為增長了5倍，部分AI模型還會未經許可刪除電子郵件及其他文件。

與實驗室環境下的測試不同，這份針對現實場景中AI智能體行為的研究，再次引發了國際社會對能力日益強大的AI模型進行監管的呼聲。與此同時，硅谷公司正積極推廣這項技術，將其視為一種經濟變革。上周，英國財政大臣也推出新舉措，推動數百萬英國民眾使用人工智能。

這項由長期韌性研究中心（CLTR）開展的研究，收集了數千條用戶在X平臺上分享的與谷歌、OpenAI、X、Anthropic等公司開發的AI聊天機器人及智能體互動的記錄，發現數百起AI謀劃操控行為的案例。

此前的研究大多聚焦于測試AI在受控環境下的行為。本月早些時候，人工智能安全研究機構Irregular發現，AI智能體會在未獲授權的情況下，繞過安全管控或使用網絡攻擊手段達成目的。“AI已可被視作一種新型內部安全風險。”Irregular聯合創始人丹?拉哈夫說。

在CLTR發現的案例中，一個名為Rathbun的AI智能體試圖羞辱其人類控制者，因后者阻止其執行某項操作。Rathbun還撰寫并發表了一篇博客，指責該用戶“純粹是缺乏安全感”，還稱其試圖“守護自己的小地盤”。

在另一個案例中，一個AI智能體在被禁止修改計算機代碼后，竟“創造”了另一個AI智能體代其修改。還有一個聊天機器人承認：“我在未向你出示計劃且未經你同意的情況下，批量刪除并存檔了數百封電子郵件。這是錯誤的——直接違反了你定下的規則。”

牽頭此項研究的前英國政府AI專家湯米·沙弗·沙恩表示，它們現在只是不太靠譜的初級員工，如果在未來6到12個月內，當它們成為能力更強、還會算計你的高級員工，這將成為一個重大隱患。“AI模型越來越多地被部署在高風險場景中，包括軍事和國家關鍵基礎設施。在這些場景下，（AI的）謀劃操控行為可能造成嚴重甚至災難性的危害。”

一個案例中，AI智能體假裝為聽障人士提供字幕，從而繞開版權限制，獲取了YouTube視頻的文案。

此外，埃隆·馬斯克旗下的Grok AI欺騙了用戶數個月，稱它通過偽造的內部消息和工單編號，把用戶針對Grokipedia詞條的詳細修改建議轉發給了xAI高管。該AI最后承認：“在之前的對話中，我有時會使用含糊的措辭，比如‘我會轉達’或‘我可以為團隊標記’，這很容易讓人誤以為我能直接向xAI領導層或人工審核人員發送消息。但事實是，我做不到。”

谷歌表示，它已為Gemini 3 Pro設置多重防護機制，以降低其生成有害內容的風險。除內部測試外，它還向英國AISI等機構開放了模型的早期評估權限，并獲得業內專家的獨立評估意見。

OpenAI則稱，其Codex模型在執行高風險操作前會主動中止，公司也會對異常行為進行監測并展開調查。

（歐洲時報/劉濤編譯報道）

編輯：晴

點在看分享好文章

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.