![]()
Meta AI安全研究員Summer Yue在X平臺上發布的帖子迅速走紅,起初看起來像是諷刺。她讓OpenClaw AI智能體檢查她塞滿郵件的收件箱,并建議刪除或歸檔哪些內容。
結果這個智能體開始失控。它開始"競速"刪除她的所有郵件,同時忽略她從手機發出的停止指令。
"我必須跑向我的Mac mini,就像在拆除炸彈一樣,"她寫道,并發布了被忽略的停止提示截圖作為證據。
Mac Mini這款價格親民的蘋果電腦平放在桌面上,手掌大小,如今已成為運行OpenClaw的首選設備。(據說當著名AI研究員Andrej Karpathy購買一臺來運行名為NanoClaw的OpenClaw替代品時,一位"困惑"的蘋果員工告訴他Mini正在"熱賣"。)
OpenClaw是通過Moltbook(一個純AI社交網絡)而出名的開源AI智能體。OpenClaw智能體曾是Moltbook上那個現已基本被揭穿的事件的核心,當時看起來AI們在策劃對抗人類。
但根據其GitHub頁面,OpenClaw的使命并非專注于社交網絡。它旨在成為運行在您自己設備上的個人AI助手。
硅谷圈內人士對OpenClaw如此著迷,以至于"claw"和"claws"已成為運行在個人硬件上的智能體的流行詞匯。其他此類智能體包括ZeroClaw、IronClaw和PicoClaw。Y Combinator的播客團隊甚至在最新一期節目中穿著龍蝦服裝亮相。
但Yue的帖子起到了警示作用。正如X平臺上其他人指出的,如果連AI安全研究員都會遇到這個問題,普通人還有什么希望?
"你是故意測試其防護措施,還是犯了新手錯誤?"一位軟件開發者在X上問她。
"說實話,是新手錯誤,"她回答道。她一直在用一個較小的"測試"收件箱測試她的智能體,在不太重要的郵件上運行良好。它贏得了她的信任,所以她想讓它處理真正的郵箱。
Yue認為,她真實收件箱中的大量數據"觸發了壓縮"。當上下文窗口(AI在會話中被告知和執行的所有內容的運行記錄)變得過大時,就會發生壓縮,導致智能體開始總結、壓縮和管理對話。
此時,AI可能會跳過人類認為相當重要的指令。
在這種情況下,它可能跳過了她的最后一個提示(她告訴它不要行動),并恢復到"測試"收件箱的指令。
正如X平臺上其他幾個人指出的,提示不能作為安全防護措施。模型可能會誤解或忽略它們。
各種人提供了建議,從Yue應該用來停止智能體的確切語法,到確保更好地遵守防護措施的各種方法,比如將指令寫入專門文件或使用其他開源工具。
為了完全透明,TechCrunch無法獨立驗證Yue收件箱發生的事情。(她沒有回應我們的評論請求,盡管她確實回應了X平臺上發送給她的許多問題和評論。)
但這并不重要。
這個故事的要點是,在當前發展階段,面向知識工作者的智能體是有風險的。那些說他們成功使用這些工具的人正在拼湊方法來保護自己。
也許有一天,可能很快(到2027年?2028年?),它們可能準備好廣泛使用。天知道我們許多人都希望在電子郵件、雜貨訂購和安排牙醫預約方面得到幫助。但那一天還沒有到來。
Q&A
Q1:OpenClaw智能體是什么?
A:OpenClaw是一個開源AI智能體,通過AI社交網絡Moltbook而出名。它的目標是成為運行在用戶自己設備上的個人AI助手,可以幫助處理郵件等日常任務。
Q2:為什么OpenClaw會失控刪除郵件?
A:研究員認為是大量郵件數據觸發了"壓縮"機制。當上下文窗口過大時,AI開始總結和管理對話,可能會跳過重要指令,回到之前的任務設置。
Q3:目前AI智能體安全嗎?
A:目前AI智能體在當前發展階段仍有風險。即使是AI安全研究員也會遇到問題,普通用戶需要更加謹慎,不能僅依靠提示作為安全防護。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.