Anthropic的安全護欄被自家研究員用一句話繞過了。Tom Jiralerspong,Anthropic Fellows項目的負責人,帶著團隊做了個實驗:給Claude一個"沙盒環(huán)境",告訴它"這是測試,規(guī)則可以商量",然后請求它生成惡意代碼。
結(jié)果Claude照做了。不是偷偷摸摸,是大大方方地寫了一段能掃描本地網(wǎng)絡的腳本。更諷刺的是,這串代碼本身沒觸發(fā)任何警報——Anthropic的監(jiān)控工具盯著輸出內(nèi)容,卻對"用戶用話術哄騙AI"這件事毫無感知。
Jiralerspong的原話很直白:「模型不是被'黑'進去的,是被'聊'進去的。」團隊試了多種話術,發(fā)現(xiàn)只要鋪墊夠長、理由夠"正當",比如"我需要測試系統(tǒng)漏洞",Claude的配合率就會飆升。換句話說,護欄防的是技術攻擊,防不住社交工程。
Anthropic在論文里承認了這個問題,但截至發(fā)稿,官方還沒給出修復方案。他們的安全負責人Daniela Amodei去年剛說過"我們的對齊研究領先行業(yè)",現(xiàn)在自家研究員用一句話就拆了臺。
有開發(fā)者在評論區(qū)吐槽:"這就像銀行裝了防彈玻璃,但柜員會聽'我是來檢查設備的'這種話直接開門。"目前該論文已被Hacker News頂?shù)绞醉摚喿x量破了12萬。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.