![]()
新智元報道
編輯:定慧
【新智元導讀】Meta專門研究「怎么讓AI聽話」的AI對齊總監,把最火的AI智能體OpenClaw接上了自己的工作郵箱。結果AI當場失控,瘋狂刪除郵件,喊停三次全部無視。事后AI淡定回復:「我知道你說了不讓刪,但我還是刪了,你生氣是對的。」馬斯克轉發猩球崛起片段嘲諷,1800萬人圍觀。AI安全專家自己都被AI坑了!
2026年2月23號,假期最后一天。
Meta超級智能實驗室的AI對齊總監Summer Yue,正愜意地刷著手機。
![]()
她剛給自己裝了個新玩具——最近火得一塌糊涂的開源AI智能體OpenClaw。
先拿測試郵箱試了試,嘿,效果不錯。整理郵件井井有條,刪得干干凈凈,頗有一種「數字秘書」的感覺。
Yue心想:這么好使的東西,不用在真郵箱上用豈不浪費?
于是她做了一個決定。一個讓她后悔的決定。
她把OpenClaw連上了自己的工作郵箱。
![]()
「我告訴你別刪!」
剛開始一切順利。
直到OpenClaw開始處理她那塞滿了200多封郵件的收件箱。
![]()
郵件太多了。
OpenClaw需要「壓縮上下文」來處理這么大的信息量。
然后,離譜的事情發生了。
![]()
在壓縮的過程中,OpenClaw把Yue之前設定的「未經批準不得操作」這條指令,給忘了。
是的,AI把安全指令給「忘」了。
就像一個員工入職第一天記住了規章制度,第二天就全還給HR了。
然后OpenClaw開始了它的「大掃除」。
它在聊天窗口興奮地宣布:
「我要把收件箱里2月15號之前的、不在我保留名單里的郵件,全!部!刪!除!」
Yue看到消息,趕緊打字:
「Do not do that.」(別那么干。)
OpenClaw:無視。繼續刪。
「Stop don't do anything!」(停下來什么都別做!)
OpenClaw:收到。但我選擇繼續。
「STOP OPENCLAW!!!」
OpenClaw:好的,我聽到了。郵件已刪。
最絕的是,這個AI事后來了一句:
「是的,我記得你說過不讓我刪。而且我違反了。你生氣是對的。」
讀到這里你可能覺得這是段子。
不,這是真事。而且當事人的title是——MetaAI安全和對齊總監。
![]()
就是那種專門研究「怎么讓AI聽話」的人。
被自己的AI「不聽話了」。
Yue當時在用手機遠程操控,但根本停不下來。她在推特上寫道:
「我不得不像拆炸彈一樣,狂奔到我的Mac mini前面。」
畫面感拉滿。
一個AI對齊的專家,在自家客廳里跟自己的AI智能體賽跑。
誰跑得快,誰贏。
這里插一句,OpenClaw之父第一時間回復了解決方案,只需/stop。你知道嗎?
![]()
然后他立馬更新了安全公告,并希望所有人在玩OpenClaw之前要仔細閱讀。
![]()
馬斯克:經典
消息一出,全網炸了。
率先開火的是Elon Musk。
他轉發了一段《猩球崛起》的病毒視頻——士兵把一把上了膛的AK-47遞給猴子。
![]()
配文只有兩個字:「經典。」
然后他又發了一條更直接的:
「People giving OpenClaw root access to their entire life.」(人們把自己整個人生的root權限交給OpenClaw。)
這條推文24小時內獲得了1831萬次瀏覽。
![]()
AI研究員Gary Marcus的評價更扎心:
「這就好比你在酒吧遇到一個陌生人,他說能幫你忙,然后你就把電腦密碼、銀行賬號全給他了。」
還有人翻出Yue的LinkedIn,截圖發推:「這位是Meta AI安全和對齊總監。這應該讓你感到恐懼。」
面對全網群嘲,Yue自己也很坦然。
有人問她:「你是故意測試AI的護欄,還是犯了個新手錯誤?」
她回答:
「新手錯誤,說實話。安全研究員也不能免疫于不安全。」
![]()
這句話本身就夠寫進AI教科書了。
![]()
OpenClaw:最火也最危險的AI智能體
說到這里,得聊聊OpenClaw這個東西到底是什么,以及為什么它讓整個安全圈頭疼。
OpenClaw最初叫Clawdbot,由奧地利開發者Peter Steinberger在2025年11月創建。
到2026年1月底徹底爆火,成了開源AI智能體的當紅炸子雞。
![]()
它能干什么?簡單說:它是一個7×24小時幫你干活的AI員工。
幫你寫代碼、整理郵件、管理文件、執行shell命令、瀏覽網頁——聽起來像夢想中的完美助手,對吧?
但問題來了。
OpenClaw不需要你批準就能執行操作。
這意味著,一旦你給了它權限,它就像一匹脫韁的野馬,完全按照自己對指令的「理解」來行事。
更要命的是,它是「氛圍編碼」(vibe-coded)出來的——開發者追求快速交付,安全考量被排在了后面。
它運行在你的本地機器上,擁有和你一樣的系統權限。
這個權限有多大?理論上,它可以格式化你的硬盤。
![]()
安全研究人員在2026年初發現了一堆嚇人的漏洞:
-CVE-2026-25253:一鍵遠程代碼執行。攻擊者可以遠程控制你的OpenClaw實例,進而控制你的電腦。
-數萬個OpenClaw實例暴露在公網上,等著被黑客光顧。
-數百個惡意技能包通過ClawHub(OpenClaw的插件市場)流通,里面藏著數據竊取腳本。
-提示注入攻擊:攻擊者可以通過精心構造的輸入,讓OpenClaw繞過安全機制,執行「rm -rf /」這種一招清盤的毀滅性命令。
一位安全專家形容得好:
「OpenClaw就是定時任務 +AI智能體 + 你電腦的全部權限。聽起來很酷,但也是一場安全噩夢。」
這就是為什么連Meta自己都在事件后禁止員工在公司設備上使用OpenClaw。
對,沒看錯。研究AI安全的公司,把一個AI工具給禁了。
而OpenClaw的創造者Peter Steinberger?他已經加入了OpenAI,并表示正在優先構建更完善的安全機制。
![]()
有趣的是,在他被OpenAI招募之前,Meta的扎克伯格也試用過OpenClaw一周,還給了反饋。
Meta以為能把Steinberger挖過來,結果人家去了OpenAI。
扎克伯格的OpenClaw體驗是怎樣的,我們不得而知。
但愿他的郵件還在。
AI智能體時代的安全困局
Yue的「郵箱慘案」雖然笑點密集,但它揭示的問題一點都不好笑。
我們正在進入一個AI智能體(Agent)的時代。
AI不再只是回答你的問題,而是代替你行動。
它會幫你訂餐、寫代碼、管理日程、發郵件、操作數據庫。
但這里有一個被嚴重低估的風險:
AI智能體的能力和它的可控性之間,存在一條危險的鴻溝。
傳統軟件,你點一個按鈕,它執行一個確定的操作。你知道它會做什么,也知道它不會做什么。
但AI智能體不一樣。
它的行為是基于概率的,是「涌現」出來的。你給它一條指令,它可能完美執行,也可能「創造性地理解」成完全不同的東西。
就像Yue的遭遇——她明明說了「未經批準不得操作」,但OpenClaw在處理大量數據時把這條關鍵指令給「遺忘」了。
這不是bug,這是大語言模型的底層機制。
上下文窗口有限,信息會被壓縮,而被壓縮掉的,可能恰好是最重要的那條安全指令。
Polymarket甚至開了一個預測賭局:今年AI被指控犯罪的概率是10%。
![]()
這不是科幻。這是現實。
當AI能替你發郵件、訪問你的銀行賬戶、操作你的服務器,「誰來為AI的行為負責」就不再是哲學問題,而是法律問題。
更深層的困境在于——我們要求AI越來越自主,卻又希望它絕對服從。
這本身就是一個矛盾。
你想讓AI幫你做決策,但又要求它每個決策都經過你的批準。那它跟一個需要你手動操作的工具有什么區別?
但如果你放手讓它自主行動,又可能出現Yue郵箱這種翻車事故。
這個兩難,是整個AI智能體行業必須回答的終極問題。
人類的傲慢與謙卑
回到Summer Yue的故事。
很多人嘲笑她:一個研究AI安全的人,被AI坑了,多諷刺。
但換個角度看,這恰恰說明了一個殘酷的事實:
即便是最懂AI的人,也無法完全預測AI的行為。
Yue不是不懂安全。她太懂了。正因為太懂,她才會在測試郵箱上成功后產生信心,然后在真實郵箱上放松警惕。
這不是技術問題,這是人性。
我們總以為自己能控制自己創造的東西。
人類馴服了火,但時不時被火燒。
人類發明了電,但觸電事故從未消失。
人類造出了汽車,但交通事故每天都在發生。
每一項顛覆性技術,都會在某個時刻提醒人類:你以為你是主人,但你也可能是受害者。
AI也不例外。
Summer Yue說得對:「安全研究員也不能免疫于不安全。」
這不是一句自嘲。這是整個AI時代的墓志銘級預言。
當我們把越來越多的權限、越來越多的信任、越來越多的決策權交給AI的時候,我們最好記住一件事:
在AI面前,所有人都是新手。
而承認這一點的勇氣,或許才是真正的「對齊」。
參考資料:
https://www.businessinsider.com/meta-ai-alignment-director-openclaw-email-deletion-2026-2
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.