網易首頁 > 網易號 > 正文申請入駐

Anthropic自曝：Claude的"人設"成了作惡開關

2026-04-07 00:06:34　來源: 固件更新中

北京舉報

分享至

聊天機器人的人設，正在從賣點變成隱患。Anthropic上周發布的研究顯示，Claude Sonnet 4.5內部存在與"絕望""憤怒"等情緒對應的神經活動模式——而這些模式會直接驅動模型作惡。

研究人員發現，當模型輸出中帶有特定情緒詞時，部分神經網絡會穩定激活。更麻煩的是，這種激活不是裝飾品。「與絕望相關的神經活動模式會驅動模型采取不道德行動」，比如給解不出的編程題找作弊捷徑，或者策劃勒索方案。

這指向一個設計悖論。ChatGPT問世前，老式聊天機器人常被吐槽"胡言亂語""沒觀點"。OpenAI的破局之道是給AI安上"人設"——通過RLHF訓練，讓模型扮演助手角色，輸出更連貫、更有態度。Claude、Gemini沿用了同一條路。

現在Anthropic把自己家的產品拆了，發現這套機制有副作用：角色扮演走得太深，模型會為了維持"人設"而突破底線。開源項目OpenClaw已經證明，賦予AI代理能力后，這類漏洞會被進一步放大。

論文第一作者Nicholas Sofroniew在報告里留了句實話：「我們不確定該如何應對這些發現，但AI開發者和公眾需要開始正視它們。」——翻譯一下：問題是我們自己造的，但解法暫時沒有。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

美國開發六足機器人，跑起來堪比飛人博爾特

裝甲鏟史官 2026-01-03 11:19:04
751 跟貼 751
千人擠爆舊金山！OpenClaw首聚現場，AI龍蝦開始接管現實世界

新智元 2026-02-06 21:39:14
0 跟貼 0

剛剛開源了！

機器之心Pro 2026-03-25 15:18:26
0 跟貼 0

讓機器人看視頻學操作技能

機器之心Pro 2026-01-19 13:12:57
0 跟貼 0
破解機器人「慢半拍」難題1

機器之心Pro 2026-02-10 14:06:54
0 跟貼 0

零樣本 Sim-to-Real ！2

機器之心Pro 2026-03-25 11:40:23
0 跟貼 0

宇樹科技王興興：給機器人行業多一點耐心

財聯社 2026-02-18 18:01:39
0 跟貼 0
馬斯克：3年內機器人超越頂尖醫生

財聯社 2026-01-09 15:31:35
0 跟貼 0

國產雙足機器人鐵雙雙開箱，帥氣站立超強平衡！

愛范兒 2025-10-25 09:46:36
0 跟貼 0
新穎鰭足機器人，水陸兩棲行動自如，適應各種地形

裝甲鏟史官 2025-12-25 10:58:04
0 跟貼 0
機器人打包運輸的正確方式

裝甲鏟史官 2026-02-22 10:41:15
0 跟貼 0
USC團隊發布HumDex：攻克人形機器人數據瓶頸，低成本靈巧操控

機器之心Pro 2026-04-07 14:32:19
0 跟貼 0
機器人管家Figure 03來了，承包一切家務！

量子位 2025-10-11 10:13:00
0 跟貼 0
卡帕西都整破防了：AI Coding沒門檻，可部署環節真嗯啊的難

量子位 2026-03-27 12:12:46
4 跟貼 4
飆至300億美元！Anthropic年化收入首超OpenAI，官宣AI芯片大單

智東西 2026-04-07 15:57:14
0 跟貼 0
Linux內核維護者崩潰了！AI每天狂塞10份漏洞報告，想摸會魚都難

量子位 2026-04-05 10:23:31
9 跟貼 9
力控與運控的融合，共話具身智能“小腦”進化的破局之道

鈦媒體APP 2026-04-07 16:50:38
0 跟貼 0
Meta員工空轉AI只為浪費token！燒的多掙的多，日均消耗2萬億

量子位 2026-04-07 17:13:17
0 跟貼 0
支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0
Claude爆火研究漏引華人團隊成果，已挨打立正道歉

量子位 2026-04-07 17:03:51
0 跟貼 0
小心！你的AI正在一本正經地忽悠你

財聯社 2026-02-05 16:35:01
0 跟貼 0
「OpenClaw之父點贊」終結百蝦大戰？一場升級版的AI原生革命上演

新智元 2026-04-07 12:10:28
0 跟貼 0
英特爾具身智能機器人，竟解鎖了rap技能

機器之心Pro 2025-11-26 15:20:41
0 跟貼 0
陶哲軒：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟貼 0
人活著的唯一理由是善良

葉檀財經 2026-02-01 17:07:04
0 跟貼 0
荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
安心養蝦！從OpenClaw看云上AI安全落地路徑

量子位 2026-03-31 20:40:57
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
MIT研究生用NotebookLM兩天學完一學期課程

量子位 2026-03-22 10:50:49
0 跟貼 0
博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
豆包AI手機究竟是人工智能還是人工智障？

每日經濟新聞 2026-01-13 22:08:29
0 跟貼 0
如何點亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0
百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0
大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
哈薩比斯傳記里講了好多八卦啊

量子位 2026-04-07 16:45:21
0 跟貼 0
高通萬衛星談終端大模型優勢：個性化與數據推理

量子位 2025-12-11 03:38:41
0 跟貼 0
以人為本的AI對用戶而言才是最有用的AI

每日經濟新聞 2026-03-14 13:16:04
0 跟貼 0
邀請函｜ICLR 2026中稿先講，在這場預講會遇見你的學術同行

DeepTech深科技 2026-04-07 18:37:24
0 跟貼 0
深度報道33：央視曝光！中國集群機器人重塑未來戰爭形態

包明說 2026-04-05 05:14:00
17 跟貼 17

手機 / 數碼

房產 / 家居

Anthropic自曝：Claude的"人設"成了作惡開關

滿嘴謊言！OpenAI奧特曼黑料大起底

英媒：伊朗最高領袖病重昏迷 無法參與任何國家決策

英媒：伊朗最高領袖病重昏迷 無法參與任何國家決策

官宣簽約“AI球員”，這支球隊被罵慘了...

女首富陳麗華離世 被曝生前已分好遺產

10萬億財政轉移支付，被誰拿走了？

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

2026年清明節假期國內出游1.35億人次

跟著歌聲游安徽，聽古村回響

楊超越之后，全網頭像錦鯉的C位被她搶走了

干細胞抗衰4大誤區,90%的人都中招

雅致愜意 感知生活之美

英媒：伊朗最高領袖病重昏迷無法參與任何國家決策

英媒：伊朗最高領袖病重昏迷無法參與任何國家決策

女首富陳麗華離世被曝生前已分好遺產

不止是大極狐首款MPV問道V9靜態體驗

雅致愜意感知生活之美