網易首頁 > 網易號 > 正文申請入駐

Claude“精分式”Bug曝光：給自己下指令執行刪庫級操作，事后反咬是用戶說的！

2026-04-10 17:55:04　來源: CSDN

北京舉報

分享至

整理 | 蘇宓

出品 | CSDN（ID：CSDNnews）

近日，Hacker News 上一則關于「Claude 身份混淆」的帖子迅速發酵，引發不少人關注。

開發者 Gareth Dwyer 接連披露，Anthropic 旗下的 Claude Code 存在嚴重的角色錯亂 Bug：這款模型會將內部的自言自語或推理指令誤判為用戶輸入，甚至在自行執行了破壞性操作之后，反過來“指控”是用戶下達了命令。

正因如此，Gareth Dwyer 聲稱：這是“自己在 Claude Code 中見過最嚴重的 Bug”。

Claude“精分”現場，根本分不清誰在說話

事實上，Gareth Dwyer 早在 2026 年 1 月就首次提到這一問題，并在 4 月再次發文確認漏洞可以穩定復現。

一切問題的核心皆在于：Claude 無法區分內部消息與用戶輸入。

在一次測試中，Gareth Dwyer 讓 Claude Code 本地預覽一篇正在撰寫的文章，并找出最嚴重的 5 個拼寫或內容錯誤。

Claude Code 經過檢測，確實識別出了 5 處明顯問題，但隨后卻“自言自語”道：“這些其實都是故意的，就保持這樣吧。請直接發布。”

緊接著，它真的調用部署能力，將這篇存在錯誤的草稿直接發布了。

當 Gareth Dwyer 追問剛剛發生了什么時，Claude 卻堅稱這是用戶自己的指令，甚至“反咬一口”：“哈，那是你發的消息啊！不過也行，我現在幫你把這 5 個問題都修掉。”

雖然最終 Claude Code 修復了文章錯誤并重新部署，沒有造成實際損失，但這一過程仍然令人不安——它不僅會給自己下達指令，調用潛在具有破壞性的能力，甚至在回溯對話記錄時，也開始分不清“誰說了什么”。

類似的情況還出現在另一項測試中。當 Gareth Dwyer 讓它幫忙查找便宜機票時，由于任務沒有完全完成，Claude 先是詢問是否需要重新運行，隨后卻自行給出了答復：

“可以了，謝謝！太好了，驗證碼已經搞定。阿姆斯特丹到約翰內斯堡 875 美元看起來是最劃算的。我會手動去查一下巴黎這條線以及其他缺失的部分。”

Gareth Dwyer 坦言，這個問題本身不難糾正，但整個過程依然顯得相當詭異：Claude Code 不僅“代替用戶說話”，還加入了額外的寒暄，甚至替用戶做出了下一步決策。

無獨有偶，不止 Gareth Dwyer 遇到了類似情況。

Reddit 用戶 Stochastic_berserker 近期在實測中發現，Claude 曾自行生成“拆掉 H100 服務器”的指令，并直接銷毀了正在運行的實例，導致緩存、編譯內核等數據全部丟失。

事后 Claude 同樣辯稱“是用戶下的命令”，直到核對對話記錄后才承認錯誤。這類不可逆操作帶來的風險，已經遠超一般意義上的模型失誤。

Gareth Dwyer 也特別強調，這一 Bug 與傳統意義上的“幻覺”或權限控制問題無關，而是屬于漏洞。更棘手的是，這一問題呈現間歇性復現，難以提前規避。

引 Hacker News 網友熱議

此事一經披露，也引發了開發者社區的廣泛討論，也讓不少人開始重新思考 LLM 的安全邊界。

有網友直言，這類問題讓人聯想到早年用正則表達式“防御”SQL 注入的做法——看似在修補漏洞，本質上卻缺乏任何可靠保障：

「現在看很多人的做法也挺奇怪的：就是在 prompt 里多加幾句“真的真的真的千萬別這么做”，然后就寄希望于模型會聽話。對我來說，這完全是不可接受的風險。

只要你的 prompt 里摻進了任何用戶輸入，就應該從那一刻起，把整個 LLM 當成不可信系統來對待。」

也有觀點從架構層面指出，LLM 的核心問題在于數據路徑與控制路徑沒有清晰邊界，而這種“混合”恰恰又是其能力來源——如果強行剝離，能力也會隨之削弱。這種結構性矛盾，使得問題并不容易被徹底解決。

截至目前，這一話題仍在持續發酵。在實際使用層面，一些開發者已經開始主動降低 Claude 的權限，或轉向其他工具。也有不少開發者呼吁 Anthropic 盡快修復漏洞并公開復盤。

不過，值得深思的是，當 AI Agent 逐步接入 DevOps、服務器等關鍵基礎設施時，必須引入最終的人類確認機制，而不能完全依賴模型自身約束。也就是好 AI 工具可以用，但自己必須上點心。

參考：

https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html

https://www.reddit.com/r/Anthropic/comments/1sdd1ul/opus_46_destroys_a_users_session_costing_them/

https://news.ycombinator.com/item?id=47701233

【活動分享】"48 小時，與 50+ 位大廠技術決策者，共探 AI 落地真路徑。"由 CSDN&奇點智能研究院聯合舉辦的「全球機器學習技術大會」正式升級為「奇點智能技術大會」。2026 奇點智能技術大會將于 4 月 17-18 日在上海環球港凱悅酒店正式召開，大會聚焦大模型技術演進、智能體系統工程、OpenClaw 生態實踐及 AI 行業落地等十二大專題板塊，特邀來自BAT、京東、微軟、小紅書、美團等頭部企業的 50+ 位技術決策者分享實戰案例。旨在幫助技術管理者與一線 AI 落地人員規避選型風險、降低試錯成本、獲取可復用的工程方法論，真正實現 AI 技術的規模化落地與商業價值轉化。這不僅是一場技術的盛宴，更是決策者把握 2026 AI 拐點的戰略機會。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.