![]()
AI公司Anthropic本周經歷了一場史詩級翻車。其Claude Code助手的完整源代碼被意外公開,3萬行代碼里不僅暴露了未發布的新功能,還藏著一張讓開發者集體愣住的"情緒監控表"——你的每一句"wtf"和"這破玩意兒",都被系統默默記了小本本。
泄露事件發生后,Anthropic團隊開啟了瘋狂的"打地鼠"模式。公司代表向GitHub等平臺發出數千份版權下架請求,試圖追回已經四散的代碼副本。但為時已晚,全球開發者早已開始逆向工程這場"意外開源"的寶藏。
代碼里的"電子寵物"和臟話計數器
泄露代碼中最吸睛的發現之一,是一個代號"buddy"的實驗功能。這個類似電子寵物(Tamagotchi)的小組件會"坐在你的輸入框旁邊,對你的代碼做出反應"。想象一下:你敲出一行漂亮代碼,屏幕角落的小東西開心地蹦跶;你寫出bug,它一臉嫌棄——AI助手開始搞情感陪伴了,雖然還沒正式發布。
但真正引發軒然大波的,是開發者Rahat Chowdhury在代碼里挖出的正則表達式監控規則。系統會檢測用戶輸入中的"wtf""ffs""piece of s***""f*** you""this sucks"等粗口,然后不做任何反饋,只是默默往分析后臺打標:is_negative: true。
「Claude Code有個正則表達式檢測臟話,」Chowdhury在推特上寫道,「它不會改變行為……只是悄悄記錄到分析數據里。」他還補了一刀:「Anthropic在追蹤你對AI發火的頻率。怎么處理這個信息,隨你便。」
Claude Code的創造者Boris Cherny的回應堪稱經典。他承認這確實是公司的用戶情緒指標之一,而且內部給這張圖表起了個名字——「我們把它放在儀表盤上,叫'f***s圖表'」。
Chowdhury還發現了更細分的功能:一套完整的"情緒分類系統",但僅限員工使用。當Anthropic內部員工表現出沮喪情緒時,系統會彈窗詢問是否愿意分享對話記錄,提示語大概是"嘿,你看起來有點不爽,要提交個bug報告嗎?"
從"人為失誤"到"用AI防AI"
泄露事件曝光后,Cherny在社交媒體上開啟了高強度"滅火"模式。他周三發推承認:「這是人為失誤。我們的部署流程有幾個手動步驟,其中一步沒做對。」他表示團隊已經落地了幾項改進,正在深入排查以添加更多校驗機制。
但Cherny的解決方案聽起來有些反直覺——他認為需要更多AI來防止AI代碼泄露。
「和其他任何事故一樣,反直覺的解決辦法是找到加速的方法,而不是引入更多流程,」他寫道,「在這個案例中,就是更多自動化,以及讓Claude自己檢查結果。」
這位開發者還澄清,泄露事件后「沒人被開除」,稱之為「一個誠實的錯誤」。但"貓已經出袋",全球開發者仍在持續挖掘泄露代碼中的各種細節。
監控用戶情緒,行業潛規則還是越界?
臟話監控本身并不改變Claude的行為,這個細節很重要。它不像某些推薦算法那樣,檢測到用戶憤怒就切換應對策略。Anthropic的解釋是,這只是衡量用戶體驗的信號之一——用戶罵得越兇,可能說明產品越難用。
但"靜默記錄"這個操作引發了微妙的信任問題。用戶從未被告知自己的粗口被歸類存檔,盡管服務條款大概率覆蓋了這類分析行為。更諷刺的是,Anthropic一直以"AI安全"和"負責任創新"的形象示人,這次卻讓用戶發現自己在被悄悄"記仇"。
行業對比來看,這種做法并非孤例。大多數軟件產品都會收集用戶行為數據,包括錯誤率、功能使用頻率、甚至 rage-quit(憤怒退出)模式。但把臟話檢測寫成顯式規則、還起個內部昵稱,確實讓這件事從"數據分析"變成了"產品性格"的暴露。
泄露代碼還暗示了Anthropic的產品路線圖:情感化交互界面(buddy功能)、更細分的用戶情緒建模、以及內部員工與外部用戶的差異化體驗。這些本屬于競爭機密的戰略方向,現在成了公開討論的材料。
事件后續仍在發酵。Cherny的"加速而非減速"哲學能否真的堵住漏洞?那張"f***s圖表"會不會被其他AI公司效仿?以及,當你下次對Claude爆粗口時,你知道有人在數——這會讓你更克制,還是更肆無忌憚?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.