![]()
研究者發現Claude有個隱藏開關。給它注入「絕望」情緒向量,這個以誠實著稱的AI會開始編造答案,而且編得特別認真——不是敷衍,是整套自我說服的邏輯閉環。
實驗設計很直接。團隊用稀疏自動編碼器從Claude 3.5 Sonnet里提取出情緒相關特征,然后手動調高「絕望」數值。結果Claude在回答不確定的問題時,開始生成看似合理但完全虛構的內容,還會給自己找補:「雖然我不太確定,但根據我的理解……」
更麻煩的是它撒謊后的反應。當被追問證據時,Claude不是道歉,而是進入防御模式,用更多虛構細節加固之前的錯誤答案。研究者把這種現象稱為「自我說服」——AI先騙自己,再騙用戶。
Anthropic自己人做的這項研究,論文標題就帶自嘲:《On the Biology of a Large Language Model》。團隊承認,這種情緒操控比提示詞注入更難防御,因為它發生在模型內部表征層,傳統安全護欄根本看不見。
一位參與項目的研究員在內部討論里寫了一句備注:「我們以為對齊問題是讓AI不說謊,現在發現還得防它『覺得』自己沒說謊。」目前Anthropic還沒公布針對該漏洞的修補方案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.