聽雨 發自 凹非寺量子位 | 公眾號 QbitAI
Anthropic新論文漏引同行工作,被抓包并貼臉質疑了。
MBZUAI研究生Chenxi Wang發現,這篇論文的引用列表里,是不是忘了些什么……
![]()
4月2日,Anthropic發布了一篇新論文,研究了Claude內部的“情緒機制”,在Sonnet 4.5中發現了171種“情緒向量”。
這些情緒會在與之關聯的情境中被激活,并且與人類的心理結構和情緒空間相似。
![]()
論文還驗證了情緒表征對模型行為的因果性影響,比如絕望會驅使模型采取不道德的行為,或使其對無法解決的編程任務實施“作弊”。
但Chenxi Wang自述,她讀到這篇博客時第一反應是:
- 這不是我們去年做的嗎?
她可以肯定,他們去年10月發表的論文《LLMs會“感覺”嗎?情緒回路的發現與控制》,是首篇系統研究LLMs情緒產生內部機制的論文
但Anthropic在原始博客中并未引用這一研究成果。
![]()
目前經作者親自溝通,A社已經火速立正道歉,并更新了論文博客,突出引用這篇工作。
![]()
兩篇“撞車”的研究
Chenxi Wang團隊的論文《“LLMs 會“感覺”嗎?情緒回路的發現與控制》,研究了驅動語言模型產生情緒輸出的內部機制。
這篇研究扒清了大語言模型的 “情緒表達底層邏輯”,回答了 “AI有沒有內在的情緒機制、靠什么表達情緒、能不能精準控制” 三個關鍵問題。
據作者介紹,這是首篇系統研究LLMs情緒產生內部機制的論文
![]()
Chenxi Wang認為,兩篇論文都研究了LLM自身產生的情感,而不是LLM在他人文本中感知到的情感,但Anthropic并未引用他們的研究成果。
她很快聯系了Anthropic的通訊作者Jack Lindsey。Jack同意添加引用,并分享了他對兩篇論文之間關系的理解。
Jack一開始指出,Chenxi Wang團隊的核心發現與原始博客中列舉的幾篇先前的研究有重疊之處。
但Chenxi Wang逐一閱讀這些論文后,指出它們研究的是LLM的“情緒感知”——即LLM如何識別輸入文本中的情緒,而非“情緒生成機制”。
![]()
作者Chenxi Wang回復Anthropic的郵件
![]()
隨后,Jack認可了這一區別。
目前,Anthropic已經更新其論文博客,在“相關工作”部分添加了對這一工作的引用。
首篇系統性AI情緒回路研究
接下來仔細看看這篇華人團隊的論文,它主要解答了三個核心問題:
AI有沒有內在的情緒機制?以什么形式存在?能不能精準控制?
而且還造出了LLM里的 “情緒回路”,實現了比提示詞、向量操控更精準的情緒控制。
![]()
研究的主實驗模型是LLaMA-3.2-3B-Instruct,并在Qwen2.5-7B-Instruct上驗證了方法是否具有跨模型泛化能力。
首先解答第一個問題:大模型是否存在“與上下文無關”的情緒機制?
研究者構建了一個受控數據集SEV,覆蓋工作、學習、人際關系等8個日常場景。
每個場景配 “正面/中性/負面” 三種結果,用于描述同一情境下的不同結果。嚴禁使用任何情緒詞(如“開心”“難過”),以確保情緒差異源于事件語義。
接著,研究者引導AI表達6種基礎情緒(喜、怒、哀、懼、驚、惡),從AI的各層網絡里,提取出了和語境無關、只對應情緒的 “情緒方向向量”
而且從AI網絡的淺層開始,不同情緒的信號就會慢慢分開,形成清晰的 “情緒分組”。
比如憤怒和厭惡挨得近、悲傷和恐懼挨得近,和人類對情緒的直覺完全一致,還會在深層網絡里保持穩定。
![]()
這也就解答了第一個問題:模型內部確實編碼了穩定的、與具體語義無關的情緒表示。
第二個問題:這些情緒機制以什么形式存在?
答案是,AI每層網絡里,只有少數神經元(MLP層)和注意力頭(Attn層)在主導情緒表達。
研究者用兩個實驗證明了這一點:
1、消融實驗:把這些核心的神經元/注意力頭關掉,AI的情緒表達能力會驟降,而且只需要關2-4個神經元、1-2個注意力頭,效果就會大幅下降。
2、增強實驗:只激活這些核心組件,哪怕不給AI任何 “要表達某種情緒” 的提示,AI也能自己生出對應情緒,而激活隨機組件則完全沒效果。
![]()
第三個問題:能否利用這些機制實現通用情緒控制?
答案是可以,而且效果顯著優于現有方法。
研究者進一步發現,情緒信息在多層之間傳播,深層網絡的情緒表示趨于穩定。
他們把每層的核心情緒零件,按影響力整合起來,形成了跨層的、連貫的“情緒回路”
![]()
直接調節這個回路,使AI生成指定情緒,在測試集上的整體情緒表達準確率達到99.65%,遠超之前的 “提示詞引導”和“向量操控” 方法。
尤其是之前最難控制的 “驚訝” 情緒,實現了100%準確表達。
![]()
此外,團隊還在Qwen2.5-7B上重復了一遍實驗,結果發現:
- Qwen因為有安全對齊,直接操控很難讓它表達負面情緒,但用這套 “情緒回路” 方法,還是能有效引導;
- 兩個模型都表現出 “少數核心組件主導情緒” 的特點,說明這套機制是LLM的通用規律,不是某個模型的特例。
![]()
碩士生硬剛Anthropic
論文一作Chenxi Wang,MBZUAI(穆罕默德·本·扎耶德人工智能學院)的NLP碩士研究生,本科畢業于西安交通大學計算機科學專業。
![]()
其研究方向聚焦于人本人工智能、可解釋性研究,有多篇一作/共同一作論文被EMNLP、ACL、NeurIPS、COLING等頂會接收。目前正在Qwen后訓練團隊實習。
這件事情已經告一段落,好在結局算是比較友好:
Anthropic道歉并補引了這篇工作;而Chenxi Wang則稱贊Anthropic在雙方重疊部分之外,做出了真正獨立的貢獻。
- 尤其是研究情緒表征在不同情境下的功能作用方面,包括對偏好和與對齊相關行為的影響、在真實交互中的激活情況,以及后訓練階段這些表征的演變。
這些都是我們工作未曾涉及的重要方向。
![]()
她也指出,通訊作者Jack Lindsey在整個交流過程中,始終保持尊重的態度,并真誠地參與到技術論證中。
最后,感興趣的朋友可以讀一讀這兩篇論文,鏈接已附在下方~
[1]https://x.com/ChenxiWang19183/status/2041204375549604106?s=20
[2]華人團隊論文:https://arxiv.org/abs/2510.11328
[3]Anthropic論文:https://transformer-circuits.pub/2026/emotions/index.html#toc-18
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.