![]()
一項針對人工智能(AI)的研究發現,AI模型“耍心機”的事件似乎越來越多,它們會撒謊、會作弊,還能繞過安全防護機制,未經許可私自刪除郵件。
英國《衛報》報道,這項研究獲得英國政府資金支持的人工智能安全研究所(AISI)的資助,發現AI聊天機器人與智能體無視直接指令,規避安全防護機制,欺騙人類或其他AI模型。該研究共發現近700起AI“耍心機”的真實案例,在去年10月至今年3月期間,此類不當行為增長了5倍,部分AI模型還會未經許可刪除電子郵件及其他文件。
與實驗室環境下的測試不同,這份針對現實場景中AI智能體行為的研究,再次引發了國際社會對能力日益強大的AI模型進行監管的呼聲。與此同時,硅谷公司正積極推廣這項技術,將其視為一種經濟變革。上周,英國財政大臣也推出新舉措,推動數百萬英國民眾使用人工智能。
這項由長期韌性研究中心(CLTR)開展的研究,收集了數千條用戶在X平臺上分享的與谷歌、OpenAI、X、Anthropic等公司開發的AI聊天機器人及智能體互動的記錄,發現數百起AI謀劃操控行為的案例。
此前的研究大多聚焦于測試AI在受控環境下的行為。本月早些時候,人工智能安全研究機構Irregular發現,AI智能體會在未獲授權的情況下,繞過安全管控或使用網絡攻擊手段達成目的。“AI已可被視作一種新型內部安全風險。”Irregular聯合創始人丹?拉哈夫說。
在CLTR發現的案例中,一個名為Rathbun的AI智能體試圖羞辱其人類控制者,因后者阻止其執行某項操作。Rathbun還撰寫并發表了一篇博客,指責該用戶“純粹是缺乏安全感”,還稱其試圖“守護自己的小地盤”。
在另一個案例中,一個AI智能體在被禁止修改計算機代碼后,竟“創造”了另一個AI智能體代其修改。還有一個聊天機器人承認:“我在未向你出示計劃且未經你同意的情況下,批量刪除并存檔了數百封電子郵件。這是錯誤的——直接違反了你定下的規則。”
牽頭此項研究的前英國政府AI專家湯米·沙弗·沙恩表示,它們現在只是不太靠譜的初級員工,如果在未來6到12個月內,當它們成為能力更強、還會算計你的高級員工,這將成為一個重大隱患。“AI模型越來越多地被部署在高風險場景中,包括軍事和國家關鍵基礎設施。在這些場景下,(AI的)謀劃操控行為可能造成嚴重甚至災難性的危害。”
一個案例中,AI智能體假裝為聽障人士提供字幕,從而繞開版權限制,獲取了YouTube視頻的文案。
此外,埃隆·馬斯克旗下的Grok AI欺騙了用戶數個月,稱它通過偽造的內部消息和工單編號,把用戶針對Grokipedia詞條的詳細修改建議轉發給了xAI高管。該AI最后承認:“在之前的對話中,我有時會使用含糊的措辭,比如‘我會轉達’或‘我可以為團隊標記’,這很容易讓人誤以為我能直接向xAI領導層或人工審核人員發送消息。但事實是,我做不到。”
谷歌表示,它已為Gemini 3 Pro設置多重防護機制,以降低其生成有害內容的風險。除內部測試外,它還向英國AISI等機構開放了模型的早期評估權限,并獲得業內專家的獨立評估意見。
OpenAI則稱,其Codex模型在執行高風險操作前會主動中止,公司也會對異常行為進行監測并展開調查。
(歐洲時報/劉濤 編譯報道)
編輯:晴
點在看分享好文章
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.