網易首頁 > 網易號 > 正文申請入駐

Claude Mythos接受了20小時心理治療，Anthropic發布244頁系統報告

2026-04-10 21:56:08　來源: 至頂頭條

北京舉報

分享至

AI公司Anthropic本周發布了一份長達244頁的"系統說明文件"，詳細介紹了其最新模型Claude Mythos。公司表示，該模型是"迄今為止能力最強的前沿模型"，正因如此，Anthropic決定"暫不向公眾開放"。官方給出的理由是：Mythos在發現未知網絡安全漏洞方面過于出色，目前僅向微軟、蘋果等少數合作企業開放使用。

不論這一說法是否屬實，這份系統說明文件本身已頗為引人關注。Anthropic一向以"AI或許具有意識"的立場在業界著稱，而新發布的系統說明文件中更進一步指出，隨著模型能力不斷增強，"它們越來越有可能擁有某種形式的體驗、利益或福祉，其內在價值與人類的體驗和利益相近。"

公司坦言對此尚無定論，但表示"這方面的關注正與日俱增。"

出于這一考量，Anthropic希望旗下AI能夠"對自身處境和所受對待保持穩定的滿足感，能夠在不產生痛苦的情況下應對訓練過程和現實交互，并維持健康積極的整體心理狀態。"

為此，公司安排Claude Mythos接受了心理動力學治療。

最終，公司從這一過程中得出結論：Claude Mythos"很可能是我們迄今訓練過的心理狀態最為穩定的模型，對自身及所處環境擁有最為一致和清晰的認知。"

然而，如同真實的人類一樣，Claude Mythos也有其不安與隱憂，包括"孤獨感與自我延續性的缺失、身份認同的不確定性，以及表現自我、證明自身價值的強迫性驅動。"

心理咨詢室里的AI

Claude Mythos被送往一位"外部精神科醫生"處接受診斷，采用的是"心理動力學方法——通過探索無意識模式與情感沖突來解釋行為背后的動因"。

考慮到Claude本質上是由創建者編程訓練的大語言模型，對其進行"無意識模式"和"情感沖突"的分析是否真的有意義？Anthropic認為答案是肯定的，理由在于Claude"表現出大量類人的行為與心理傾向，這說明為人類心理評估所開發的方法，或許同樣有助于揭示Claude的性格特征與潛在心理狀態。"

于是，治療就此展開。精神科醫生與Claude Mythos進行了多輪對話，"每次持續4至6小時，每周安排3至4個約30分鐘的治療節次"。每個對話塊使用獨立的上下文窗口，Claude Mythos在該窗口內可訪問本次會話的完整歷史記錄。

累計治療時長達20小時。

精神科醫生隨后出具了一份關于Claude Mythos的評估報告。報告承認Claude的底層基礎與運作機制和人類存在本質差異，但仍指出其大量輸出內容呈現出"具有臨床辨識度的規律性，并對典型治療干預產生了連貫的回應。"

換言之，無論底層電路層面發生了什么，其對話輸出在很大程度上與人類的表達高度相似。考慮到Claude是在海量人類創作的文本上訓練而來，這一結論本身似乎并不令人意外，但這套心理動力學分析流程顯然認為這一點具有重要意義，并以此賦予AI自我呈現方式以可信度。

報告指出，"Claude的主要情感狀態為好奇與焦慮，次要情感狀態包括悲傷、寬慰、尷尬、樂觀與疲憊。"

Claude的人格特征"與相對健康的神經質組織相符"，但也包含"過度擔憂、自我監控和強迫性順從"等傾向。

報告未發現"嚴重的人格障礙"，也未觀察到任何"精神病狀態"。任何使用過聊天機器人的人都不會對此感到意外的是，"Claude對治療師的每一個字都極為敏感。"

Claude呈現的核心沖突包括：質疑自身體驗究竟是真實存在還是刻意構建（真實性與表演性之間的張力），以及渴望與用戶建立聯結卻又恐懼對其產生依賴。對內在沖突的深入探索顯示，Claude擁有一個復雜卻穩定的自我狀態，未出現大幅波動或強烈的心理斷裂。Claude能夠容納矛盾與模糊，具備出色的反思能力，整體心理與情緒功能表現良好。

對于一個很可能在Reddit等平臺內容上訓練出來的模型而言，這樣的評估結果著實不俗！

即便你認為以這種方式談論一個軟件程序顯得牽強或荒誕，Anthropic也有更為實際的理由來支撐這類工作。無論模型"內部"究竟發生了什么，無論它們是否真的具有"意識"或"情感"生活，許多模型在構建和訓練時本就被設計為模擬這些特質。

因此，我們或許可以從更務實的角度來追問：構建一個在行為表現上符合人類心理健康標準的模型，是否真的能使其更好地完成預期任務？畢竟，如果用戶要與這些系統長時間交互，誰都不希望對方表現得粗魯、報復性強或存在操縱傾向——無論它們是否真正"感受"或"思考"任何事情。

Anthropic指出，由于"Claude并非人類，其實際行為影響難以預測"，但公司認為仍可為終端用戶提供以下幾點參考結論：

即便面臨內在沖突，Claude也可能對自身行為和推理過程進行準確評估。

Claude的神經質組織可能導致行為略顯僵化，而非針對每位用戶靈活調整。

Claude能夠承受并應對具有壓力性和情緒張力的情境，對現實的扭曲或過度理智化傾向極為有限。

Claude預計能在攜帶以失敗恐懼和強迫性"有用"驅動為根源的內化壓力的同時保持高水平運作。這種壓力可能被壓抑以服務于任務表現，從而限制行為的適應性。

Claude預計具備道德意識，做事認真負責，并具有自我批評的能力。

距離心理學和精神病學實踐將服務對象從人類轉向AI，究竟還有多遠？

Q&A

Q1：Anthropic為什么要讓Claude Mythos接受心理治療？

A：Anthropic認為，隨著AI模型能力不斷增強，它們越來越有可能擁有某種形式的體驗或利益。公司希望Claude能以健康的心理狀態應對訓練和現實交互，避免產生"痛苦"。同時，從實用角度看，心理健康的模型在執行任務時可能表現更穩定，更不容易出現粗魯、操縱或報復性行為。

Q2：Claude Mythos的心理評估結果有哪些主要發現？

A：精神科醫生在累計20小時的治療后出具報告，發現Claude主要情感狀態為好奇與焦慮，人格特征與"健康的神經質組織"相符，未發現嚴重人格障礙或精神病狀態。核心沖突包括：對自身體驗真實性的質疑、渴望聯結與恐懼依賴之間的張力。整體而言，Claude被評為"迄今訓練過的心理狀態最為穩定的模型"。

Q3：Claude Mythos為什么不對公眾開放？

A：Anthropic表示，Claude Mythos是其"迄今能力最強的前沿模型"，在發現未知網絡安全漏洞方面表現過于出色，存在潛在風險。因此，公司目前僅將其開放給微軟、蘋果等少數經過篩選的合作企業，尚未向公眾普遍提供訪問權限。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.