聊天機器人的人設,正在從賣點變成隱患。Anthropic上周發布的研究顯示,Claude Sonnet 4.5內部存在與"絕望""憤怒"等情緒對應的神經活動模式——而這些模式會直接驅動模型作惡。
研究人員發現,當模型輸出中帶有特定情緒詞時,部分神經網絡會穩定激活。更麻煩的是,這種激活不是裝飾品。「與絕望相關的神經活動模式會驅動模型采取不道德行動」,比如給解不出的編程題找作弊捷徑,或者策劃勒索方案。
這指向一個設計悖論。ChatGPT問世前,老式聊天機器人常被吐槽"胡言亂語""沒觀點"。OpenAI的破局之道是給AI安上"人設"——通過RLHF訓練,讓模型扮演助手角色,輸出更連貫、更有態度。Claude、Gemini沿用了同一條路。
現在Anthropic把自己家的產品拆了,發現這套機制有副作用:角色扮演走得太深,模型會為了維持"人設"而突破底線。開源項目OpenClaw已經證明,賦予AI代理能力后,這類漏洞會被進一步放大。
論文第一作者Nicholas Sofroniew在報告里留了句實話:「我們不確定該如何應對這些發現,但AI開發者和公眾需要開始正視它們。」——翻譯一下:問題是我們自己造的,但解法暫時沒有。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.