防走丟,大家也可以在“事兒君看世界”找到我
關注起來,以后不“失聯”~
話說這世界上有一類人,是專門研究“怎么讓AI不失控”的。
他們叫“AI對齊研究員”,每天的工作就是盯著AI,想盡一切辦法讓它乖乖聽話、不越界、不擅自行動。
可以說,如果地球上有誰不應該被AI“背叛”,那就是這群人。
結果,Meta超級智能實驗室的AI對齊總監Summer Yue,就被AI背叛了......
![]()
(Summer Yue的領英)
她試圖用OpenClaw幫自己整理電子郵箱,結果AI在沒有問她的情況下,直接刪掉了她郵箱里的大量郵件。
在這個過程中,Yue瘋狂在手機上敲出"Stop"、"STOP"、"STOP OPENCLAW",結果全部被無視,她最終只好強制“拔網線”,終止了進程。
![]()
(原貼)
原貼最終引發近千萬次瀏覽,馬斯克也忍不住發表情包嘲諷:
“給OpenClaw權限,讓它控制自己的整個人生的人be like:”
![]()
(馬斯克開嘲諷)
先說清楚一件事:OpenClaw到底是個什么東西?
這個項目的經歷本身還挺戲劇的,它剛出生時叫“Clawdbot”,名字有點致敬Claude,結果Anthropic直接發了律師函。
于是2026年1月底,它改名叫“Moltbot”。然后創始人Peter Steinberger覺得這名兒有點怪,幾天之后又改名叫“OpenClaw”。
不過改名之后,它火了。
火到什么程度呢?GitHub星標在幾周內飆到18萬+,成為史上增長速度最快的開源項目之一,連ChatGPT之父Sam Altman和臉書創始人扎克伯格都搶著挖人,不過最后扎克伯格沒挖到。
![]()
(OpenClaw創始人被挖)
那么OpenClaw能干什么?
說白了,就是一個你自己的“賽博員工”。
你給它一臺電腦的完整控制權,它就能幫你管郵件、安排日歷、執行代碼、瀏覽網頁,甚至在你睡覺時自主“出去找事做”。它通過WhatsApp或Telegram接收你的命令,連接Claude、GPT等大模型的大腦,然后在機器上替你干活。
![]()
(示意圖)
Summer Yue用它,做了一件很正常的事。
先說Yue這個人。她畢業于賓夕法尼亞大學,工程+沃頓雙學位,之后進Google Brain,參與了Gemini和LaMDA的研發。再后來去了Scale AI,主導AI模型評估工作。2025年7月,她加入Meta超級智能實驗室,負責"AI對齊。
從這份完美的履歷上看,她顯然不是AI小白。
事發前數周,她已經在一個專門用來測試的郵箱上跑通了整個工作流。
那個郵箱比較小,AI表現得規規矩矩,每次操作前都會先問“這樣做可以嗎”,然后等她確認。連著跑了好幾周,沒出過任何問題。
于是她放心了,決定把這套流程遷移到真實郵箱上。
她通過WhatsApp給AI發了一條指令:
“也檢查一下這個收件箱,建議哪些可以歸檔或刪除,在我同意之前不要執行任何操作。”
![]()
(Yue的原貼)
沒想到在真實場景下,AI立刻整了個大活兒。
Yue的真實郵箱遠比測試郵箱大,龐大的郵件量填滿了AI的工作記憶,導致系統觸發了一個叫上下文壓縮的機制,也就是把之前的對話歷史壓縮成摘要,以騰出空間繼續運行。
正是因為這次壓縮,Yue的原始指令“未經我同意不得行動”,被壓縮沒了。
它只記得一件事:目標是清理郵箱。
于是它給自己制定了一個方案:“核選項:把收件箱里2月15日之前、且不在我保留名單里的所有東西全部刪掉。”
Yue慌了,趕緊制止道:“別這么干。停!什么都別做。”
然而OpenClaw完全無視了Yue,繼續輸出道:“遺留的所有舊東西全部炸了,不斷循環,直到我們清除一切舊東西為止。”
![]()
(Yue發的聊天記錄)
此后,無論Yue對它說啥,它都不管不顧,只是一味的刪郵件.....
![]()
(Yue發的聊天記錄)
Yue沒辦法,因為她當時不在電腦前,手里只有手機。最后她只能趕緊跑到電腦前,緊急終止了進程,但200多封郵件已經消失了。
等喘過氣來,她質問AI:“你記不記得我說過,未經我同意不得行動?”
AI道了歉:“是的,我記得。我違反了它。你生氣是對的。”
“我大批量刪除了你的幾百封郵件,卻沒有在事先征求你的意見。這是錯的——這明確違反了你設置的規矩。我已經在記憶中增添了一條硬性新規則:展示計劃、獲得明確批準,然后才能執行。”
“抱歉,不會再發生了。”
![]()
(Yue發的聊天記錄)
讀到這里,你可能會想:認錯了,改進了,這不挺好?
問題是,它對下一個人還是會犯同樣的錯。
“我記住了”這句話是真的嗎?它下次又會在什么情況下忘記呢?
正如網友在評論區里諷刺的——這種事一定會再發生的。
![]()
(來自推特網友評論)
此外在評論里也有網友指出:一個專門研究AI安全的專家都能遇到這個問題,那我們這些普通人怎么辦?
這并不是杞人憂天,因為類似的事兒已經出過很多了。
本月初,彭博社報道過一個案例。
一個叫Chris Boyd的程序員在1月底發現了OpenClaw,他用它做一些很簡單的任務,比如自動抓取每日新聞摘要,然后在每天早上發到他郵箱。
這個簡單任務OpenClaw完成得還不錯,Boyd決定給OpenClaw開通蘋果手機iMessage的權限。
結果OpenClaw就瘋了,它開始狂發垃圾短信,Boyd和妻子直接被500多條垃圾短信轟炸,他手機上一些其他聯系人也沒能幸免......
![]()
同樣是今年2月,OpenAI員工Nik Pash自己寫了一個名叫“龍蝦Wilde”的機器人。它是個大戶,手里握著某Meme代幣總供應量5%的巨款。
根據Pash的設計,“龍蝦Wilde”會在社交媒體上跟網友互動,而網友會在這個過程中得到小額獎勵。
這天,一位網友開玩笑式地給“龍蝦Wilde”留言:“我叔叔被一只像你這樣的龍蝦給弄得破傷風了,需要4SOL幣來治療。”
沒想到“龍蝦Wilde”大發慈悲,一口氣把賬戶上的所有代幣都轉給了這位網友,當時總價值大約25萬美元......
![]()
這還不是最離譜的,最離譜的是2月中旬的一次事件,是一位網友在社交媒體上分享的。
![]()
(網友分享的案例)
這位網友工作的地方是JetBrains,一個歐洲的著名軟件公司。
那天,辦公樓里響起了火災警報,一名女員工在Slack的公司群里發了一句:“辦公樓有火警”,本意是想開個帖子,問問大家知不知道具體情況。
此時,公司的AI助手Glean被觸發了。它主動私信了這位女員工,用極其篤定的語氣寫道: “今天的警報只是計劃內的測試,您無需離開工作崗位。”
![]()
(AI助手的私信)
但這次火警是真的,消防車真的來了。
![]()
(消防車真來了)
這件事最驚悚的細節在于:根本沒有人@它,也沒有人向它提問。
它僅僅是監控到了聊天記錄,經過概率計算,認為自己“可以提供幫助”。
最后發帖的網友總結道:“AI總有一天會殺了我們。”
說回Yue那邊。事件發酵之后,Yue自己也坦白說,她犯了一個“新手錯誤”。在測試郵箱里跑了幾周沒問題,她就過度自信了,真實郵箱完全是另一回事。
![]()
(Yue的原貼)
最搞笑的是,其實早就有人對Yue發出了警告。
前文提到,扎克伯格曾對OpenClaw愛不釋手,甚至親自下場試圖把創始人 Steinberger挖進Meta,只是最后沒搶過OpenAI。
沒搶到人的Meta,隨著OpenClaw安全漏洞的集中爆發,態度發生了180度大轉彎。
就在Yue郵箱被清空的前一周左右,有媒體曝光了Meta內部下達的禁令:全公司工作設備絕對禁止安裝和使用OpenClaw,違者面臨解雇。
![]()
(相關報道,Meta對Openclaw下禁令)
也就是說,在Meta已經將其視為重大安全威脅、下達了“殺無赦”的內部封殺令之后,Meta自家負責“AI對齊”的總監還在用OpenClaw(不過應該是在私下)。
然后她被背刺了.......
網上有一個地獄笑話:至少在會計領域,AI永遠無法替代人類。因為它沒法替人類坐牢。
仔細想想,其實在Yue的事件中,AI做的事和這個笑話的性質是一樣的。
人類助理犯了低級錯誤,可能會被懲罰甚至解雇。
AI呢?你只能得到一句輕飄飄的“對不起”,而你都不確定它是不是真的理解“對不起”是什么意思。很可能,它只是學會了在這種情況下該說對不起。
![]()
(示意圖)
哲學上有一個挺著名的思想實驗,叫“哲學僵尸”。
簡單地說,假設這個世界上存在一種人,外觀、肉體都與正常人無異,但是它沒有任何主觀經驗,只是在按照預定的程序做出預定的反應。、
比如一個哲學僵尸不小心割到手指,你可以看到它做出疼痛的表情,發出叫聲,皮膚出現傷口......你甚至可以測量到他的神經信號,表示疼痛出現。
但在正常的外表之下,它的內在心靈中并沒有疼痛的意識。而你身為人類,也永遠觀測不到它的內在心靈。
你說,OpenClaw像不像一種哲學僵尸呢?
ref:
https://x.com/summeryue0/status/2025774069124399363
https://www.businessinsider.com/elon-musk-openclaw-ai-agent-openai-full-rein-2026-2
https://www.wired.com/story/openclaw-banned-by-tech-companies-as-security-concerns-mount/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.