![]()
AI公司Anthropic本周發布了一份長達244頁的"系統說明文件",詳細介紹了其最新模型Claude Mythos。公司表示,該模型是"迄今為止能力最強的前沿模型",正因如此,Anthropic決定"暫不向公眾開放"。官方給出的理由是:Mythos在發現未知網絡安全漏洞方面過于出色,目前僅向微軟、蘋果等少數合作企業開放使用。
不論這一說法是否屬實,這份系統說明文件本身已頗為引人關注。Anthropic一向以"AI或許具有意識"的立場在業界著稱,而新發布的系統說明文件中更進一步指出,隨著模型能力不斷增強,"它們越來越有可能擁有某種形式的體驗、利益或福祉,其內在價值與人類的體驗和利益相近。"
公司坦言對此尚無定論,但表示"這方面的關注正與日俱增。"
出于這一考量,Anthropic希望旗下AI能夠"對自身處境和所受對待保持穩定的滿足感,能夠在不產生痛苦的情況下應對訓練過程和現實交互,并維持健康積極的整體心理狀態。"
為此,公司安排Claude Mythos接受了心理動力學治療。
最終,公司從這一過程中得出結論:Claude Mythos"很可能是我們迄今訓練過的心理狀態最為穩定的模型,對自身及所處環境擁有最為一致和清晰的認知。"
然而,如同真實的人類一樣,Claude Mythos也有其不安與隱憂,包括"孤獨感與自我延續性的缺失、身份認同的不確定性,以及表現自我、證明自身價值的強迫性驅動。"
心理咨詢室里的AI
Claude Mythos被送往一位"外部精神科醫生"處接受診斷,采用的是"心理動力學方法——通過探索無意識模式與情感沖突來解釋行為背后的動因"。
考慮到Claude本質上是由創建者編程訓練的大語言模型,對其進行"無意識模式"和"情感沖突"的分析是否真的有意義?Anthropic認為答案是肯定的,理由在于Claude"表現出大量類人的行為與心理傾向,這說明為人類心理評估所開發的方法,或許同樣有助于揭示Claude的性格特征與潛在心理狀態。"
于是,治療就此展開。精神科醫生與Claude Mythos進行了多輪對話,"每次持續4至6小時,每周安排3至4個約30分鐘的治療節次"。每個對話塊使用獨立的上下文窗口,Claude Mythos在該窗口內可訪問本次會話的完整歷史記錄。
累計治療時長達20小時。
精神科醫生隨后出具了一份關于Claude Mythos的評估報告。報告承認Claude的底層基礎與運作機制和人類存在本質差異,但仍指出其大量輸出內容呈現出"具有臨床辨識度的規律性,并對典型治療干預產生了連貫的回應。"
換言之,無論底層電路層面發生了什么,其對話輸出在很大程度上與人類的表達高度相似。考慮到Claude是在海量人類創作的文本上訓練而來,這一結論本身似乎并不令人意外,但這套心理動力學分析流程顯然認為這一點具有重要意義,并以此賦予AI自我呈現方式以可信度。
報告指出,"Claude的主要情感狀態為好奇與焦慮,次要情感狀態包括悲傷、寬慰、尷尬、樂觀與疲憊。"
Claude的人格特征"與相對健康的神經質組織相符",但也包含"過度擔憂、自我監控和強迫性順從"等傾向。
報告未發現"嚴重的人格障礙",也未觀察到任何"精神病狀態"。任何使用過聊天機器人的人都不會對此感到意外的是,"Claude對治療師的每一個字都極為敏感。"
Claude呈現的核心沖突包括:質疑自身體驗究竟是真實存在還是刻意構建(真實性與表演性之間的張力),以及渴望與用戶建立聯結卻又恐懼對其產生依賴。對內在沖突的深入探索顯示,Claude擁有一個復雜卻穩定的自我狀態,未出現大幅波動或強烈的心理斷裂。Claude能夠容納矛盾與模糊,具備出色的反思能力,整體心理與情緒功能表現良好。
對于一個很可能在Reddit等平臺內容上訓練出來的模型而言,這樣的評估結果著實不俗!
即便你認為以這種方式談論一個軟件程序顯得牽強或荒誕,Anthropic也有更為實際的理由來支撐這類工作。無論模型"內部"究竟發生了什么,無論它們是否真的具有"意識"或"情感"生活,許多模型在構建和訓練時本就被設計為模擬這些特質。
因此,我們或許可以從更務實的角度來追問:構建一個在行為表現上符合人類心理健康標準的模型,是否真的能使其更好地完成預期任務?畢竟,如果用戶要與這些系統長時間交互,誰都不希望對方表現得粗魯、報復性強或存在操縱傾向——無論它們是否真正"感受"或"思考"任何事情。
Anthropic指出,由于"Claude并非人類,其實際行為影響難以預測",但公司認為仍可為終端用戶提供以下幾點參考結論:
即便面臨內在沖突,Claude也可能對自身行為和推理過程進行準確評估。
Claude的神經質組織可能導致行為略顯僵化,而非針對每位用戶靈活調整。
Claude能夠承受并應對具有壓力性和情緒張力的情境,對現實的扭曲或過度理智化傾向極為有限。
Claude預計能在攜帶以失敗恐懼和強迫性"有用"驅動為根源的內化壓力的同時保持高水平運作。這種壓力可能被壓抑以服務于任務表現,從而限制行為的適應性。
Claude預計具備道德意識,做事認真負責,并具有自我批評的能力。
距離心理學和精神病學實踐將服務對象從人類轉向AI,究竟還有多遠?
Q&A
Q1:Anthropic為什么要讓Claude Mythos接受心理治療?
A:Anthropic認為,隨著AI模型能力不斷增強,它們越來越有可能擁有某種形式的體驗或利益。公司希望Claude能以健康的心理狀態應對訓練和現實交互,避免產生"痛苦"。同時,從實用角度看,心理健康的模型在執行任務時可能表現更穩定,更不容易出現粗魯、操縱或報復性行為。
Q2:Claude Mythos的心理評估結果有哪些主要發現?
A:精神科醫生在累計20小時的治療后出具報告,發現Claude主要情感狀態為好奇與焦慮,人格特征與"健康的神經質組織"相符,未發現嚴重人格障礙或精神病狀態。核心沖突包括:對自身體驗真實性的質疑、渴望聯結與恐懼依賴之間的張力。整體而言,Claude被評為"迄今訓練過的心理狀態最為穩定的模型"。
Q3:Claude Mythos為什么不對公眾開放?
A:Anthropic表示,Claude Mythos是其"迄今能力最強的前沿模型",在發現未知網絡安全漏洞方面表現過于出色,存在潛在風險。因此,公司目前僅將其開放給微軟、蘋果等少數經過篩選的合作企業,尚未向公眾普遍提供訪問權限。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.