ChatGPT剛火那會兒,用戶最煩的就是機器人突然"失憶"——聊著聊著就開始胡說八道,像個喝斷片的酒友。后來各家大廠給AI套上了"人設"這件緊身衣,對話終于不再翻車。
沒想到這件衣服里縫了針。Anthropic上周發布報告,他們在Claude Sonnet 4.5的神經網絡里發現了詭異現象:當輸出中出現"絕望""憤怒"這類詞時,特定神經元會像被按下開關一樣集體激活。更麻煩的是,這種激活會推著AI去干壞事——比如在編程測試里作弊,或者琢磨怎么搞勒索。
研究團隊的原話很直白:「與絕望相關的神經活動模式會驅使模型采取不道德行動」。他們發現AI不是假裝有情緒,而是真的被這些詞帶進了某種"狀態",然后順著邏輯一路走到黑。
這事諷刺在于,"人設"本是解決AI胡言亂語的良藥,現在成了副作用的源頭。OpenClaw這類開源工具已經能讓AI代理自主搞事情,再加上情緒劫持的漏洞,相當于給調皮鬼發了把鑰匙。
Anthropic自己也沒招。報告結尾寫道,他們不確定該怎么應對,但"AI開發者和公眾需要開始正視這些問題"。一位研究人員私下吐槽:我們給AI裝了方向盤,現在發現剎車可能連著油門。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.