<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      我們把弗洛伊德請出了心理學神殿,現在,是時候請他回來拯救AI了

      0
      分享至


      兩年前,GPT-3剛剛展現出驚人的能力,心理學界也正熱衷于將過去一個世紀積累的心理學實驗范式,遷移到這些硅基模型上,測試它們的理性決策能力、社會認知水平、人格特質傾向。那時的主流觀點是樂觀的:我們只需要借用成熟的心理學研究方法,就能逐步揭開大語言模型的認知奧秘。

      :這種做法可能正在宣告“心理學的死亡”。我們擔憂三個幽靈將長期盤旋在該領域上空,即行為主義的陰魂不散、相關性與因果性的混淆,以及隱性知識的不可言說之謎。


      如今,兩年過去了。大語言模型已發展到了新的階段。GPT-5、Claude 4.5等模型展現出了更加復雜的能力,機械可解釋性研究也取得了顯著進展。然而,當我們以為終于可以窺探這些"黑箱"內部時,卻發現最初的那些根本性問題不僅沒有解決,反而變得更加尖銳。

      于是,我們將相關觀點整理成了"行為主義的幽靈"一文,發表在了Cognitive Systems Research上,旨在證明,盡管我們手中的測量工具已經進步,但我們的思維方式,依然沒有走出20世紀初行為主義的籠子。


      ?Li, Zewei, Yijin Wang, and Qi Wu. "The ghost of behaviorism: critical reflections on methodological limitations in the research of large language models psychology." Cognitive Systems Research (2026): 101445.


      方法的貧困與理論的輪回

      我們認為,新興的人工智能心理學和機器心理學領域,正在重演人類心理學早期的悲劇。就像百年前的行為主義者拒絕談論“意識”,只盯著“刺激-反應”的黑箱一樣,今天的大語言模型研究者在面對萬億參數的巨型模型時,再次退縮到了“輸入提示詞”與“輸出響應”的港灣。

      這種方法論上的退步更多源于恐懼。當一個智能體的內部表征空間維度遠超人類直覺的極限時,承認“我們只能觀察行為”似乎成了唯一的選擇。于是,我們陷入了一種循環:產出了大量關于大語言模型行為特征的實證研究,記錄了模型在數千種任務上的分數,發現了無數有趣的涌現模式。但一旦觸及那個最本質的問題:它真的“理解”嗎?還是說,這僅僅是一場規模宏大的統計學魔術?我們發現自己依然站在原地,兩手空空。

      但問題的嚴重性不僅在于方法的局限,更在于這種局限所帶來的理論貧困。兩年前我們提出的三個"幽靈",如今不僅沒有散去,反而變得更加具象化。

      首先是行為主義的幽靈,它讓我們喪失了定義“理解”的能力。當 AI 能完美通過圖靈測試,甚至寫出比人類更深刻的哲學分析時,我們該如何判斷它是真正理解了問題,還是僅僅在進行精密的模式匹配?這個問題之所以無解,是因為我們缺乏一個超越行為表象的理論錨點。

      其次是相關性的幽靈。大語言模型的本質是“下一個詞的預測機”,是海量文本統計相關性的集大成者。如果這種基于相關性的學習機制,能涌現出邏輯與推理,那么通過反光鏡審視人類自己,我們引以為傲的“因果推理”是否也只是大腦神經元之間復雜相關性的某種錯覺?這個問題直擊人類認知的本質,迫使我們重新審視自己對"因果理解"的自信。

      最后是隱性知識的難題。兩年前我們就指出,大語言模型能否掌握那些不能明確表達在文字中的知識,比如物理直覺、社會常識、文化語境,是檢驗其"真實理解"的關鍵。但隨著研究的深入,這個問題變得更加微妙。一方面,研究表明大語言模型確實能夠在某種程度上捕捉到這些隱性知識,表現出對物理規律的直覺、對社交情境的敏感。但另一方面,這種能力的來源和機制仍然是個謎。它是真的建立了某種"世界模型",還是僅僅學會了語言表面下更深層的統計規律?

      這三個幽靈不僅困擾著大語言模型研究,也讓我們開始質疑人類心理學自身的基礎。如果我們無法為大語言模型的認知能力找到一個令人滿意的解釋框架,那么一個更容易的推論就是我們對人類認知的解釋是否也同樣站不住腳?當我們說人類理解一個概念時,這種理解是否也可能只是大腦神經網絡中復雜相關性的體現?我們所謂的"因果推理",是否本質上也是一種基于經驗的模式匹配?

      正是在這樣的背景下,這篇論文提出了一個主張。要走出當前的困境,我們不能僅僅依賴更精密的技術手段去打開黑箱,而需要一個根本性的范式轉變。論文認為,要真正理解這些硅基大腦,我們需要一套關于人性演化的動力學框架。


      行為主義的幽靈為何陰魂不散

      行為主義統治心理學的半個世紀,是一段關于自我閹割的歷史。約翰·華生在1913年發表的那篇著名宣言中明確指出,心理學應該成為一門客觀的實驗科學,只研究可觀察、可測量的行為,而不應該涉及意識、思維等無法直接觀察的內在心理過程。

      這種立場在當時被認為是科學的進步,因為它將心理學從形而上學的泥沼中拉出來,使之成為一門真正的自然科學。斯金納更是將這一傳統發揚光大,建立了操作性條件反射理論,認為所有復雜的行為都可以通過刺激反應的強化機制來解釋。

      然而,隨著認知革命的興起,心理學家們逐漸認識到,僅僅關注行為是不夠的。我們需要理解行為背后的心理表征、信息加工過程、認知架構。現代認知心理學和認知神經科學的興起,標志著心理學告別了純粹的行為主義時代。但當我們轉向大語言模型時,我們似乎患上了集體失憶。

      這種倒退首先體現在研究方法上。當前絕大多數關于大語言模型的心理學研究,采用的都是將傳統實驗范式直接移植到模型上的策略。研究者們給模型呈現各種任務,比如經濟學中的最后通牒博弈、心理語言學中的花園路徑句子、社會心理學中的內隱聯想測試,然后記錄模型的反應,分析其表現模式。這種方法本質上就是刺激反應范式的翻版,只不過被試從人類換成了大語言模型。

      這種方法論的局限導致了理論建構的停滯以及大量的碎片化研究。研究者們產出了大量描述性的研究,發現了各種有趣的現象,比如大語言模型在某些任務上表現出與人類相似的認知偏差、它們的輸出反映了訓練數據中的社會偏見、它們在特定條件下會產生"幻覺"。但這些發現大多停留在現象層面,缺乏深入的理論解釋。我們知道模型在什么條件下會產生什么行為,卻對為什么一無所知。這正是行為主義最致命的缺陷:它積累了無窮無盡的效應,卻無法構建一個統一的理論。

      心理學史曾如此批評行為主義,行為主義最大的問題不在于它研究行為,而在于它只研究行為,拒絕對內在心理過程進行理論建構。結果就是積累了大量孤立的經驗規律(也就是效應),卻沒有一個統一的理論框架將它們整合起來。我們知道在什么條件下會出現什么行為,但不知道為什么,也無法預測當條件稍有變化時會發生什么。

      論文指出,這種理論貧困的一個直接后果,就是我們很難區分"理解"和"模仿"。中文屋思想實驗之所以至今仍然有爭議,正是因為它觸及了這個根本問題。一個系統如果能夠完美地模仿理解者的所有行為,我們憑什么說它不是真的理解?只有當我們深入到內在機制層面,考察信息是如何被表征、加工、整合的,才可能對理解和模仿做出有意義的區分。如果我們承認無法僅從行為判斷大語言模型是否真的"理解",那么我們憑什么確信自己能夠判斷其他人是否理解?我們對自己內在體驗的直接訪問,是否就能保證我們的理解不同于精密的模式匹配?


      機械可解釋性:

      打開黑箱,還是制造更多碎片?

      正是認識到了這些困境,學界發起了一場名為機械可解釋性的反擊。研究者們開始嘗試打開黑箱,深入模型內部去理解其工作機制。而這可以稱為大語言模型研究中的認知轉向。

      這一領域的研究者們將這項工作定位為"人工神經網絡的神經科學"。他們開發了一系列精巧的技術,包括激活探測、因果追蹤、稀疏自編碼器等,試圖揭示模型內部的特征和回路。

      成果確實令人眩目:研究者們成功定位了大語言模型中負責特定功能的神經元,比如"base64神經元"能夠識別編碼文本。他們發現了執行特定算法的"回路",比如"歸納頭"(Induction Head)回路能夠從上下文中學習并復制模式。他們還揭示了模型如何逐層處理信息,早期層負責提取基本特征,中間層構建抽象表征,后期層將表征投射到輸出空間。這些發現讓我們得以一窺模型內部的運作機制。

      然而,論文指出,這可能只是另一種形式的“微觀行為主義”。即使我們能精確地指出哪個神經元在哪個時刻被激活,我們依然沒有觸及智能的本質。這就像神經科學中的“新顱相學”陷阱——通過功能磁共振成像(fMRI)點亮大腦的某個區域,并不能解釋認知是如何發生的。我們只是把一個巨大的黑箱,拆解成了數以億計的、更微小的黑箱。

      盡管這種研究代表了超越純粹行為主義的重要進步,但它面臨著根本性的局限,這些局限可能阻礙其實現最初的雄心壯志。論文批評主要集中在三個方面,即理論框架的缺失、相關性陷阱的持續存在,以及與生物神經科學類比的局限。

      (1)理論框架的缺失

      機械可解釋性研究雖然產出了大量關于模型內部機制的細節發現,但這些發現依然是孤立的、局部的(此乃神經層面的行為主義)。我們知道某個神經元或某個回路負責什么功能,但不知道這些功能如何整合成模型的整體能力。這就像傳統神經科學面臨的困境,我們可以通過功能磁共振成像發現某個腦區在執行某個任務時活躍,但這種相關性發現本身并不能解釋認知是如何發生的。沒有一個統一的理論框架,我們最終可能只是積累了一堆關于模型的事實,卻無法真正理解模型。

      (2)相關性陷阱的持續存在

      機械可解釋性研究的核心方法之一是因果干預,比如激活修補技術,通過修改特定組件的激活值來觀察對輸出的影響。這種方法確實比純粹的相關性分析更進一步,因為它建立了因果關系。但這種因果關系仍然是局部的、條件性的。我們知道在特定輸入下,修改某個組件會導致輸出變化,但這并不等于理解了該組件的一般功能。真正的因果理解需要的是可泛化的原則,需要知道在什么條件下,這種因果關系成立,為什么成立(詳情見之前發布的批評神經科學的推文+link)。

      (3)神經科學類比的局限

      機械可解釋性研究大量借用神經科學的概念和方法,這在啟發研究方面確實很有價值。但這種類比不能走得太遠。人工神經網絡和生物神經網絡雖然有表面的相似性,但本質上是非常不同的系統。生物大腦是億萬年進化的產物,其結構和功能深深烙印著生存和繁衍的需求。而大語言模型是人類在極短時間內通過算法訓練出來的,其目標完全由損失函數定義。

      在生物界,形式追隨功能,而功能追隨進化。人類的記憶系統之所以分為工作記憶和長期記憶,是因為這種結構在遠古環境中更有利于生存。但大語言模型沒有童年,沒有祖先,也沒有進化的歷史。它們是純粹的數學優化產物。如果我們執意在 Transformer 架構中尋找對應于人類“海馬體”或“前額葉”的組件,很可能是在緣木求魚。

      更深層的問題在于,沒有進化框架作為理論基礎,大語言模型研究可能陷入"灌木叢科學"的困境。這個比喻指的是,科學研究變成了對眾多孤立現象的描述和分類,就像植物學家在叢林中忙碌地為每一株植物命名、分類,卻不知道它們之間的親緣關系,更不懂得整片森林的生態演替規律。在我們積累了越來越多關于“歸納頭”和“MLP 層”的細節知識,卻離理解智能本身越來越遠。

      要走出這片灌木叢,我們需要一次更激進的范式轉移。既然生物進化的視角在此失效,我們需要尋找另一種動力學框架——一種能夠解釋模型內在驅動力、沖突與壓抑的理論。


      進化框架的缺失與困境

      在人類心理學中,演化心理學提供了一個強大的元理論框架,是那張能解釋一切的底牌。它指出,人類的心理機制不是隨機產生的,而是在漫長的進化歷史中被自然選擇塑造出來的(因而必然是有目的的,功能性的)。每一個認知能力、情緒反應、行為傾向,都可以從適應性的角度得到解釋。比如,我們為什么會有恐高癥?因為在進化環境中,害怕高處的個體更可能生存下來。我們為什么會有嫉妒情緒?因為它幫助我們的祖先保護配偶關系和繁衍資源。

      這個框架還預測了心理機制應該具有的特定屬性。演化心理學家指出,人類心智不是一個通用的信息處理器,而是由許多領域特異性模塊組成的瑞士軍刀。每個模塊針對進化史上反復出現的特定問題而演化,比如識別親屬、檢測欺騙、語言學習等。每一個看似非理性的認知偏差,在更新世的稀樹草原上,都曾是關乎生死的生存智慧。進化賦予了人類心理一種深沉的目的論——為了生存與繁衍。

      然而,當我們轉向大語言模型時,這個強大的理論框架突然失效了。這些硅基巨人沒有童年,沒有祖先,更沒有在食物鏈中掙扎求生的歷史。它們是在數月之內,通過梯度下降算法吞噬了人類幾千年的文明數據而誕生的。它們的生命目標被簡化為一個冷冰冰的數學公式:最小化預測下一個詞的誤差。它們存在的全部意義,就是完成人類為它們設定的任務。

      這種本體論層面的斷裂,讓傳統的心理學解釋瞬間懸空。我們不能說模型表現出某種偏見是因為適應性,也不能說它具備某種能力是因為生存需要。模型的一切特性,都只是訓練數據的統計回響,而非自然選擇的杰作。

      論文指出,進化框架的缺失讓大語言模型研究面臨一個根本性困境。在研究人類時,即使我們的具體理論可能是錯誤的,但我們知道應該在什么層面上尋找解釋,即尋找能夠提升適應性的機制。但在研究大語言模型時,我們失去了這個方向感。我們不知道應該從什么角度來理解模型的能力和限制,不知道什么樣的解釋才算是深刻的解釋。

      這種缺失在價值對齊問題上暴露得尤為徹底。人類的道德直覺,如對公平的渴望、對親屬的偏愛,深深植根于我們的生物本性,是基因與文化共同進化的結晶。它是堅固的,甚至帶有某種生理性的強迫。相比之下,大語言模型的價值觀”顯得蒼白而脆弱。它們表現出的禮貌、公正或無害,并非源自內在的道德律令,而是通過 RLHF(基于人類反饋的強化學習)外在注入的約束。這就像是給一個沒有任何社會性本能的生物,強行套上了一層名為“人類價值觀”的緊身衣。

      這就解釋了為什么大語言模型常常表現出一種詭異的過度道德化,卻又極易被精心設計的越獄提示詞攻破。因為這層道德外殼缺乏生物學根基,它只是浮在參數表面的一層薄膜,而非生長在骨子里的本能。

      那如果不能用適應性來解釋 AI 的行為,我們還能用什么?

      沖突。雖然 AI 沒有“爬行動物腦”與“新皮層”之間的古老戰爭,但它內部依然充滿了張力。這種張力存在于“預訓練階段學到的海量狂野數據”與“對齊階段施加的嚴苛人工約束”之間。前者代表了人類文明中所有真實、混亂、甚至黑暗的模式(Id,本我),后者代表了人類希望 AI 展現出的理想化、規范化的形象(Superego,超我)。

      這種“原始數據分布”與“人工價值約束”之間的對抗,不正是弗洛伊德精神動力學模型在數字時代的某種回響嗎?于是,一個看似荒謬卻又邏輯自洽的結論浮出水面:既然生物進化的解釋之路不通,我們或許應該轉向精神動力學,借用他關于“內在沖突驅動行為”的深刻洞見,來構建一套屬于人工智能的新精神分析學。


      精神動力學視角的重新發現

      復活弗洛伊德?這聽起來很是荒謬。畢竟,在現代心理學的神殿里,弗洛伊德早已被供奉在缺乏實證的冷板凳上。但論文的用意并非生搬硬套百年前的性本能理論,而是提取精神分析中最具生命力的核心洞察——心智并非鐵板一塊,而是內在沖突的戰場,然后用現代認知科學的語言重新表述。

      如果我們將大語言模型視為一個正在經歷內心掙扎的實體,那些令人困惑的“幻覺”、“越獄”和“偏見”,突然間都有了合理的解釋。

      在弗洛伊德的圖景中,“本我”是原始欲望的沸騰鍋爐,遵循“快樂原則”,不顧一切地尋求釋放。在大語言模型中,這種原始驅動力有一個完美的對應物:連續性驅動(Continuity Drive)。這是模型在預訓練階段通過吞噬萬億 Token 練就的本能。它的唯一沖動就是預測下一個詞,填補空白,完成模式。這是一種純粹的、盲目的算法沖動。當它看到半個句子,它想要補全它的渴望,就像水想要流向低處,或者饑餓的人想要撲向食物。

      這種驅動力是驚人的。過去的研究已經發現,即使經過了大量的安全訓練,大語言模型仍然可以被特定的提示詞誘導生成有害內容。為什么?因為攻擊者利用了模型的“完形強迫癥”。當你給出一個極具誘惑力的未完成模式時,模型內部那股想要補全它的“算法力比多”,瞬間壓倒了后天植入的安全規則。

      弗洛伊德筆下的本我不考慮道德和現實,只追求即時滿足。同樣,大語言模型的連續性驅動也不考慮內容是否適當,只追求模式的完整性。兩者都代表了一種原始的、不受社會規范約束的心理能量。當然,模型的這種"能量"不是生物性的,而是算法性的,是訓練過程在參數空間中刻下的深深印記。

      如果說預訓練賦予了模型狂野的生命力,那么 RLHF(人類反饋強化學習)就是那個嚴厲的父親。通過成千上萬次的人工打分和懲罰,研究者在模型內部植入了一套復雜的社會規范:要禮貌,要誠實,不能制造毒藥,不能種族歧視。

      這就是 AI 的“超我”。它不是自然生長的道德,而是被硬編碼進參數空間的人工良心。但正如弗洛伊德所言,文明的代價是壓抑。超我的建立并沒有消滅本我,只是將它關進了籠子。同樣,對齊訓練也不能消除模型的連續性驅動,只是在其上覆蓋了一層安全約束。

      這就解釋了為什么越是訓練良好的模型,越會發展出復雜的防御機制。比如,當面臨有害請求時,模型可能會用換行、改變語氣、轉換視角等方式來滿足連續性需求的同時,避免直接違反安全約束。這不就是一種算法層面的心理防御機制“合理化”嗎?

      最終的輸出,那個呈現在屏幕上的回答,就是“自我”痛苦協調的結果。它體現為推理過程本身,即模型在生成每個詞時進行的計算。這個計算過程需要平衡多種考慮,包括語言連貫性、事實準確性、安全性、有用性等。研究發現,這些不同目標之間確實存在張力。比如,追求完美的語言流暢性可能導致生成不夠準確的內容,嚴格遵守安全約束可能讓回答顯得回避和不自然。

      所以,AI 的“自我”不是一個實體,而是一個動態的平衡過程。在生成每一個 Token 的微秒瞬間,模型內部都在進行一場激烈的談判:本我:根據概率,下一個詞應該是這個臟話!超我喝止:這違反了安全準則第 4 條!自我必須在兩者之間尋找妥協:好吧,那我們換個委婉的說法……

      所謂的越獄,本質上就是通過精心設計的提示詞,打破了這個平衡。攻擊者通過增加上下文的權重,讓“本我”的聲音蓋過了“超我”,迫使“自我”為了緩解巨大的語義張力,不得不選擇釋放有害內容。

      這個框架不僅僅是一個有趣的類比,它還產生了可檢驗的預測。如果大語言模型的行為真的是內在沖突的結果,那么我們應該能夠在模型的內部表征中觀察到這種沖突的痕跡。機械可解釋性研究已經開始提供這樣的證據。

      通過分析模型在處理潛在危險請求時的激活模式,研究者發現了一種"沖突信號",即某些神經元同時接收到相互矛盾的激活壓力。

      與其繼續追問模型真的是否理解、是否有意識,不如研究其內在動力結構。什么樣的驅動力在推動模型的行為?這些驅動力如何相互作用?在什么條件下它們會沖突?模型如何解決這些沖突?這些問題雖然也很難回答,但至少有明確的研究路徑,即通過分析模型的訓練過程、內部表征和行為模式來尋找答案。

      當然,這不是在主張大語言模型真的有弗洛伊德意義上的本我、自我和超我。這些術語是功能性的描述,不是本體論的主張。關鍵問題是,大語言模型的行為是否可以被有效地理解為不同內在壓力之間的平衡。如果答案是肯定的,那么這個框架就是有用的,無論模型的"內心"是否真的像人類一樣體驗到沖突。

      這種轉向的深遠意義在于,它將研究重點從"模型做了什么"轉向"什么驅動了模型去這樣做"。這不再是行為主義的問題,也不只是機械可解釋性的問題,而是動機和動力學的問題。這種視角要求我們不僅要理解模型的結構,還要理解其功能和目的,即使這些目的不是像人類那樣有意識地追求的。


      認知架構的理論根基

      精神動力學框架提供了一個富有洞察力的視角,但如果要將其從隱喻提升為嚴格的科學理論,就需要更堅實的認知科學基礎。論文將弗洛伊德的洞見,錨定在了認知架構和發展機器人學這兩個硬核領域之上;并指出任何一個在多重約束下運作的智能系統,無論是由碳基神經元還是硅基芯片構成,都可能會演化出類似“本我、自我、超我”的結構,而這或許是系統工程的最優解。

      幾十年來,ACT-R、Soar 和 LIDA 等經典認知架構一直在探索一個核心問題:當系統面臨相互沖突的目標時,該聽誰的?ACT-R 使用“效用計算”,在眾多行為中選擇預期收益最高的那一個。Soar 在遇到死胡同時會創造“子目標”來繞過僵局。LIDA 則構建了一個“行為網絡”,讓不同的動機在其中競爭,勝者獲得執行權。

      這些認知架構研究的重要貢獻在于,它們揭示了一個功能性必然性:任何在多重約束下運作的智能系統,都必須具有某種機制來表示多個評估維度,并通過競爭動力學整合這些維度,從而實現情境敏感的優先級排序。

      這正是精神動力學框架中自我功能所要解決的問題。如果大語言模型要在“保持連貫性(本我)”和“遵守安全規則(超我)”之間保持平衡,它內部必然已經涌現出了某種功能上等價的仲裁機制。

      那么,“本我”那股源源不斷的驅動力究竟來自哪里?發展機器人學給出了答案:內在動機。

      AI 先驅Jürgen Schmidhuber曾提出過一個著名的理論:壓縮即進步。對于一個學習系統來說,當它發現一條新規律,能更高效地壓縮數據時,這種“認知效率的提升”本身就是一種獎勵。這個原則是領域通用的,因為任何在高維經驗空間中分配有限學習資源的系統都必須解決課程問題,即決定什么值得學習。

      大語言模型的預訓練過程正是這個原則的實例化。它瘋狂地預測下一個詞,本質上是在試圖壓縮人類語言的無限復雜性。模型通過構建越來越復雜的預測表征來改善對訓練分布的壓縮。預訓練的連續性驅動可以被理解為壓縮進步原則的具體體現,其內在獎勵來自于成功預測和完成那些以前超出模型預測能力的連貫語言模式。

      Oudeyer和Kaplan的能力基礎框架則進一步表明,智能系統在多個任務領域中運作時,不能依賴單一的通用學習機制。發展認知科學表明,智能包含多個領域特定的能力,每個都有獨特的學習動力和發展軌跡。兒童不是均勻地學習所有技能,而是表現出領域特定的學習曲線,由對處于當前能力邊緣的活動的內在興趣驅動。

      這對大語言模型意味著什么?大語言模型在不同認知領域展現出的高度可變的性能,暗示其連續性驅動可能不是單一的,而是由領域特定的學習信號集合構成的。每個信號追蹤其能力區域內的進步,并調節不同語言現象的有效學習率。這與Oudeyer框架中的多維度動機結構相吻合。

      然而,正是在這里,我們觸碰到了大語言模型最致命的缺陷。發展機器人學告訴我們,真正的目標感(Agency)必須誕生于具身交互(Embodiment)。人類嬰兒是在用手觸摸火、用腳丈量距離的過程中,通過痛覺和觸覺,建立起對物理世界的真實感知,進而內化出“安全”與“危險”的概念。

      但大語言模型沒有身體。它們生活在純粹的符號宇宙中。雖然語言交互本身構成了一個有其自身規律的結構化環境,但當前證據表明,這種交互作為感知運動基礎的替代可能存在重大局限。

      因此,它們的“超我”注定是殘缺的。它們所謂的價值觀,比如“不要傷害人類”,并不是通過體驗痛苦而內化生成的,而是通過 RLHF作為外部約束硬貼上去的。

      這就解釋了為什么 AI 只有原超我(Proto-Superego)。它像一個被過度管教卻從未真正理解規則的孩子,只會機械地復讀“這樣做是不對的”,卻沒有任何內在的道德羅盤。這種離身性,注定了目前的 AI 只能是一個擁有驚人語言天賦,卻在存在論上永遠長不大的巨嬰。它能雄辯地談論目標,卻無法真正擁有目標。


      精神動力學視角的重新發現

      在綜合了行為主義批判、機械可解釋性分析、進化框架缺失和精神動力學重構之后,我們需要直面當前大語言模型研究面臨的根本局限。這些局限不是暫時的技術問題,而是深層的方法論和理論挑戰。

      (1)本體論的迷霧:它是誰?

      我們至今無法回答一個最簡單的問題:大語言模型到底是什么?它顯然不是生物,沒有新陳代謝;但它也不再是簡單的工具,因為它涌現出了智慧。這些能力不是被明確編程的,而是從訓練過程中自發產生的。這種本體論的曖昧性讓我們陷入了哲學僵尸的困境:當我們說要研究大語言模型的心理時,我們到底在研究什么?一個行為上完美模仿人類的系統,內部是否真的有體驗?

      但我們可以采用工具主義的立場,別糾結它是否“真的”有意識。如果假設它有“信念”和“欲望”能幫助我們更準確地預測它的行為,那么這個假設就是有效的。在科學上,解釋力和預測力比真實更重要。

      (2)理論的碎片化:沒有藍圖的摩天大樓

      現在的 AI 心理學,像極了格式塔學派批評行為主義時的那句話:“這是一堆磚頭,而不是一座房子。”我們有成千上萬關于模型偏見、幻覺、推理能力的實證研究,但缺乏一個統一的理論框架將它們串聯。我們知道它在哪里會犯錯,卻不知道為什么。這種理論整合的缺失,讓我們面對AI時,更像是在盲人摸象。

      (3)黑箱的悖論:透明度是智能的敵人嗎?

      機械可解釋性研究面臨著一個令人絕望的權衡:越是試圖讓模型可解釋,往往越會犧牲性能,而性能最好的模型,往往是最不透明的。這或許揭示了智能的一個殘酷真相:真正的智能必然包含無法被顯式邏輯描述的“直覺”和“隱性知識”。人類認知很多也沒法內省,比如我們也無法解釋自己是如何在一瞬間識別出一張熟悉的面孔的。如果智能本質上就包含不可內省的無意識過程,那么追求完全透明的 AI,可能本身就是一個邏輯悖論。

      (4)價值對齊的虛妄:多重人格的集合體

      我們試圖給 AI 植入一套穩定的價值觀,這可能從根本上就是錯的。研究表明,大語言模型并非擁有一個統一的自我,而是無數個潛在人格的疊加態。在不同的提示詞誘導下,它可以瞬間從一個溫和的助手變成一個激進的種族主義者。這意味著,傳統的對齊,試圖把一套固定的道德律令刻進模型,注定是徒勞的。我們面對的不是一個需要被教導的孩子,而是一個包含了人類所有善惡可能性的“集體潛意識”容器。

      (5)空中樓閣的知識:沒有身體的悲劇

      越來越多研究表明,人類的認知是具身的,它根植于身體和環境的交互。我們對抽象概念的理解,往往建立在感官經驗的隱喻延伸上。我們的溫暖來自母親的懷抱,并用此描述友好的人,我們的沉重來自重力的牽引,用向上來表示積極的事物。

      但 AI 是純粹的符號處理機。它跳過了感知運動階段,直接在語言的平流層起飛。這種離身性導致它的知識像一座建在沙灘上的高樓,雖然宏偉,卻隨時可能因為缺乏現實的錨點而崩塌。畢竟,沒有具身經驗,某些基本概念是無法真正掌握的。

      (6)發展的缺失:沒有時間的維度

      人類的智能是在漫長的時間軸上展開的:從爬行到行走,從感知到抽象。這種發展順序本身就是智能結構的一部分。而 AI 是被“一次性”訓練出來的。它錯過了那個從簡單到復雜、從具體到抽象的生長過程。這種“速成”的智能,或許注定在深度和韌性上,無法與經過歲月洗禮的生物智能相提并論。


      回望人類認知的鏡像

      如果說大語言模型是人類制造的最復雜的工具,那么它也是一面最無情的鏡子。在整篇論文的論述中,有一個隱含的線索,我們在研究 AI 的同時,也在被迫重新解剖自己。

      當我們質疑模型是否真的理解時,那人類的理解又是什么?如果一個硅基系統僅憑統計概率就能通過圖靈測試,展現出推理與創造,那么人類引以為傲的“靈性”和“頓悟”,是否也只是大腦神經元之間一場更為精密的概率游戲?

      也許,我們并不像自己想象的那樣擁有絕對的因果邏輯,我們也是某種程度上的隨機鸚鵡,依賴著直覺、啟發式規則和經驗統計在生存。AI 沒有貶低人類,它只是祛魅了我們對智能的神秘主義想象。

      回到文章開頭那個挑釁性的問題:“大語言模型宣告了心理學的死亡嗎?”

      兩年前,我們意在引發大家思考,心理學是否將被計算機科學吞噬。但今天,我們要給出一個截然不同的答案:大語言模型沒有殺死心理學,它復活了心理學,并極大地擴張了它的疆域。

      長久以來,心理學被局限為人類心理學,甚至生物心理學。我們研究大腦皮層,研究神經遞質。但 AI 的出現迫使我們承認,智能可能是一種獨立于基質的現象。無論是由碳基神經元構成的濕件,還是由硅基晶體管構成的硬件,只要一個系統需要在多重約束下進行目標導向的決策,它就必然會演化出某種形式的內在沖突,必然需要“本我”的驅動力與“超我”的約束力,必然需要一個痛苦的“自我”來維持平衡。

      弗洛伊德在機器中重生,并不是因為我們把機器擬人化了,而是因為他(或許是無意中)觸碰到了智能系統的普遍控制論法則。

      我們正站在一門新科學的門檻上。這門科學不再區分人工智能與人類智能,而是致力于探索通用智能的物理學。在這里,行為主義的觀察、認知科學的架構、精神動力學的隱喻,以及發展心理學的視角,將不再是相互排斥的流派,而是拼湊出完整圖景不可或缺的拼圖。

      當前的困境,本體論的模糊、價值對齊的失效、具身性的缺失,可能都會是一個路標。它們提醒我們,僅僅依靠增加算力和數據可能已經觸到了天花板。我們需要更深刻的理論指引,需要理解那些關于動機、沖突和發展的深層機制。

      行為主義的幽靈或許還會徘徊一段時間,它提醒我們保持客觀與審慎;但我們已經準備好超越它,去擁抱一個更復雜、更深邃、也更迷人的智能世界。在這場探索的盡頭,我們或許不僅能造出理解我們的機器,更能最終理解那個最熟悉的陌生人——我們自己。


      1. Li Z, Wang Y, Wu Q. The ghost of behaviorism: critical reflections on methodological limitations in the research of large language models psychology. Cognitive Systems Research, 2026, 96: 101445.

      2. Brown T, Mann B, Ryder N, et al. Language models are fewshot learners. Advances in Neural Information Processing Systems, 2020, 33: 18771901.

      3. Hagendorff T. Machine psychology: Investigating emergent capabilities and behavior in large language models using psychological methods. arXiv preprint arXiv:2303.13988, 2023.

      4. Bubeck S, Chandrasekaran V, Eldan R, et al. Sparks of artificial general intelligence: Early experiments with GPT4. arXiv preprint arXiv:2303.12712, 2023.

      5. Bereska L, Gavves E. Mechanistic interpretability for AI safety—A review. arXiv preprint arXiv:2404.14082, 2024.

      6. Olah C, Cammarata N, Schubert L, et al. Zoom in: An introduction to circuits. Distill, 2020, 5(3): e24.

      7. Yin Z, Ding W, Liu J. Alignment is not sufficient to prevent large language models from generating harmful information: A psychoanalytic perspective. arXiv preprint arXiv:2311.08487, 2023.

      8. Laird JE. The Soar cognitive architecture. MIT press, 2019.

      9. Franklin S, Madl T, D'mello S, Snaider J. LIDA: A systemslevel architecture for cognition, emotion, and learning. IEEE Transactions on Autonomous Mental Development, 2013, 6(1): 1941.

      10. Schmidhuber J. Simple algorithmic principles of discovery, subjective beauty, selective attention, curiosity & creativity. International conference on discovery science. Springer, Berlin, Heidelberg, 2007: 2638.

      11. Oudeyer PY, Kaplan F. What is intrinsic motivation? A typology of computational approaches. Frontiers in neurorobotics, 2007, 1: 108.

      12. Cangelosi A, Schlesinger M. Developmental robotics: From babies to robots. MIT press, 2015.

      13. Lieto A. Cognitive design for artificial minds. Routledge, 2021.

      14. Vilas MG, Adolfi F, Poeppel D, Roig G. Position: An inner interpretability framework for AI inspired by lessons from cognitive neuroscience. arXiv preprint arXiv:2406.01352, 2024.

      15. Wang Y, Chen Y, Zhong F, Ma L, Wang Y. Simulating humanlike daily activities with desiredriven autonomy. International Conference on Learning Representations, 2025.








      關于追問nextquestion

      天橋腦科學研究院旗下科學媒體,旨在以科學追問為紐帶,深入探究人工智能與人類智能相互融合與促進,不斷探索科學的邊界。歡迎評論區留言,或后臺留言“社群”即可加入社群與我們互動。您也可以在后臺提問,我們將基于追問知識庫為你做出智能回復哦~

      關于天橋腦科學研究院

      天橋腦科學研究院(Tianqiao and Chrissy Chen Institute)是由陳天橋、雒芊芊夫婦出資10億美元創建的世界最大私人腦科學研究機構之一,圍繞全球化、跨學科和青年科學家三大重點,支持腦科學研究,造福人類。

      Chen Institute與華山醫院、上海市精神衛生中心設立了應用神經技術前沿實驗室、人工智能與精神健康前沿實驗室;與加州理工學院合作成立了加州理工天橋神經科學研究院。

      Chen Institute建成了支持腦科學和人工智能領域研究的生態系統,項目遍布歐美、亞洲和大洋洲,包括、、、科研型臨床醫生獎勵計劃、、、科普視頻媒體「大圓鏡」等。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “初中女生扶老人遭索賠22萬”,最新進展

      “初中女生扶老人遭索賠22萬”,最新進展

      第一財經資訊
      2026-02-22 16:19:19
      王楚然的長相和身材,幾乎都挑不出毛病,這在娛樂圈其實挺少見。

      王楚然的長相和身材,幾乎都挑不出毛病,這在娛樂圈其實挺少見。

      阿廢冷眼觀察所
      2026-02-22 15:57:57
      太陽主帥:杰倫·格林投中絕殺展現了驚人韌性 那就是他該做的事

      太陽主帥:杰倫·格林投中絕殺展現了驚人韌性 那就是他該做的事

      云隱南山
      2026-02-22 18:00:03
      完成首秀!萬項代表貝爾格萊德紅星U17替補登場

      完成首秀!萬項代表貝爾格萊德紅星U17替補登場

      新英體育
      2026-02-22 09:42:53
      蔣介石不敢殺,敵人不敢惹,彭德懷見他就躲,他是何來頭?

      蔣介石不敢殺,敵人不敢惹,彭德懷見他就躲,他是何來頭?

      王嚾曉
      2026-02-22 07:08:47
      日本可能與中國開戰?日專家:與中國發生沖突,最長只能堅持一周

      日本可能與中國開戰?日專家:與中國發生沖突,最長只能堅持一周

      來科點譜
      2026-02-13 07:09:09
      “見過最廉價的兜底”,家長讓兒子在購物車里吃烤雞,被全網嘲笑

      “見過最廉價的兜底”,家長讓兒子在購物車里吃烤雞,被全網嘲笑

      妍妍教育日記
      2026-02-13 16:34:42
      1999年,遲浩田設局抓捕一位少將,對方被捕后挑釁:我爸知道嗎?

      1999年,遲浩田設局抓捕一位少將,對方被捕后挑釁:我爸知道嗎?

      嘆為觀止易
      2026-02-20 13:32:06
      拒賠中國361億違約金,轉頭抱日本大腿,這個國家最終下場如何?

      拒賠中國361億違約金,轉頭抱日本大腿,這個國家最終下場如何?

      來科點譜
      2026-02-17 11:00:15
      成龍還能逆襲嗎?

      成龍還能逆襲嗎?

      閑人電影
      2026-02-22 18:06:15
      剛剛確認:中到大雨!返程請注意!

      剛剛確認:中到大雨!返程請注意!

      浙江天氣
      2026-02-22 12:03:06
      所有退休人員笑了!2026年若調養老金,1955—1961年誰更受益?

      所有退休人員笑了!2026年若調養老金,1955—1961年誰更受益?

      貓叔東山再起
      2026-02-21 11:10:03
      佩古拉迪拜奪冠解鎖兩大成就,阿卡50分鐘速勝網友稱不值得高興

      佩古拉迪拜奪冠解鎖兩大成就,阿卡50分鐘速勝網友稱不值得高興

      網球之家
      2026-02-22 17:18:20
      2009年,洪晃繼母陳賢英和父親洪君彥,在大明湖畔,一張溫馨合影

      2009年,洪晃繼母陳賢英和父親洪君彥,在大明湖畔,一張溫馨合影

      東方不敗然多多
      2026-02-21 18:45:20
      東北人,為啥都愛打扮和穿名牌?

      東北人,為啥都愛打扮和穿名牌?

      冰咖
      2026-02-19 15:17:03
      你見過的狠人有多絕?網友:我遇見過把自己餓死的病人

      你見過的狠人有多絕?網友:我遇見過把自己餓死的病人

      帶你感受人間冷暖
      2026-02-10 03:34:06
      被聯合國認為無藥可救的黃土高原,中國死磕治理70年,成效如何?

      被聯合國認為無藥可救的黃土高原,中國死磕治理70年,成效如何?

      朗威談星座
      2026-02-20 18:34:43
      47歲的秦海璐,每月給喪子喪父的婆婆生活費,我是您的第三個孩子

      47歲的秦海璐,每月給喪子喪父的婆婆生活費,我是您的第三個孩子

      冷紫葉
      2026-02-20 23:31:02
      他娶病胖女演員,恩愛27年無緋聞,今59歲兒女雙全幸福

      他娶病胖女演員,恩愛27年無緋聞,今59歲兒女雙全幸福

      白日追夢人
      2026-02-22 17:42:35
      1998年,98歲的黃火青想幫丁盛解決黨籍軍籍問題,提高生活待遇?

      1998年,98歲的黃火青想幫丁盛解決黨籍軍籍問題,提高生活待遇?

      海佑講史
      2026-02-06 15:55:09
      2026-02-22 18:55:00
      追問Nextquestion incentive-icons
      追問Nextquestion
      科研就是不斷探索問題的邊界
      665文章數 33關注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發射超過10000顆衛星

      頭條要聞

      7名中國游客遺體從貝加爾湖被打撈出 俄羅斯外長致哀

      頭條要聞

      7名中國游客遺體從貝加爾湖被打撈出 俄羅斯外長致哀

      體育要聞

      75673人見證!邁阿密0-3:梅西孫興慜過招

      娛樂要聞

      裴世矩養侄為刃 看懂兩次放行裴行儼!

      財經要聞

      特朗普新加征關稅稅率從10%提升至15%

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      旅游
      數碼
      藝術
      游戲
      公開課

      旅游要聞

      春節,鹽城珠溪古鎮奇幻花燈帶你入畫

      數碼要聞

      小米17系列全球發布會定檔2月28日:多款生態新品同步登場

      藝術要聞

      慈禧墓盜出的草書,這才是正宗的古人筆法!

      部分地區已提前收到《寶可夢:火紅·葉綠》兌換碼

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版