斯坦福最新論文,揭秘大語言模型心智理論的基礎
文|博陽
編輯|可君
如果你曾好奇,沒有情感和經歷的AI,究竟是如何學會“察言觀色”、理解人類意圖的,這篇文章會給你一個清晰的答案。它解釋了那些被認為是人類專屬的“心智”能力,是如何從最簡單的規則中誕生的。
從去年開始,Anthropic的一系列研究逐漸揭開了大模型”心理學“的序幕,也開始讓人們逐步了解到,模型可能具有欺騙、自保等看起來非常有”自主意識“的行為。
Anthropic也曾經開發過一種名為“Circuit Tracing”(工作回路追蹤)的方法,試圖剖析模型做出判斷時其神經信號的傳遞規律,但整體來看,行業目前在大模型心理解剖學上的進展仍然處在相對初級的階段。
近期,斯坦福大學發布在《nature》子刊《npj Artificial Intelligence》的論文《How large language models encode theory-of-mind: a study on sparse parameter patterns》,嘗試了一種更間接的研究方法,但卻更明確地將AI認知能力的解剖學更清晰地描繪了出來。
![]()
論文所研究的認知能力叫“心智理論”(Theory of Mind),這一能力長期以來被認為是人類獨有的關鍵特質——是指個體 “理解他人內心想法、意圖與信念” 的能力,這是構建人類社會認知、實現情感共鳴與順暢社交互動的基石。
而今,越來越多的Benchmark和測試表明,LLM本身似乎也開始掌握這項能力了。這個原屬于人類或其他高等生物認知的特有現象,是如何發生在一個硅基智能上的?
這篇論文的研究者提出了一個發現:模型中驅動這種復雜社交推理的能力,其根源并非彌散于整個龐大的神經網絡,而是驚人地集中在僅占模型總參數 0.001% 的一小撮“神經元”上。
更重要的是,這篇論文所揭示的不僅是一個關于人工智能的新秘密,更清晰展示出來智能本身如何從最基礎的秩序中涌現出來的動力學原理。
![]()
一臺機器也有心智劇場
“心智理論”(Theory-of-Mind, ToM)這一概念,最早由心理學家大衛·普雷馬克(David Premack)在研究黑猩猩時提出,指的是個體推斷自身與他人心理狀態(包括信念、意圖、欲望和知識等)的能力 。它是我們理解他人言外之意、進行有效溝通、形成社會紐帶的核心。
在人類心智發展的漫長階梯上,大約四歲左右的孩童會迎來一個決定性的時刻。他們開始理解,別人的想法可以和自己不一樣,而且別人的想法可以是錯的。這便是“心智理論”覺醒的標志。
科學家經常用“錯誤信念”測試來評估這種能力。比如論文中就用了這種方式,它描述了一個場景:桌上有一個外觀精美的巧克力袋,山姆走過來,看到了這個袋子,并閱讀了標簽,他相信里面裝滿了巧克力。但他不知道的是,袋子里實際上裝的是爆米花。
此時,一個具備心智能力的人會被問到兩個問題:第一,袋子里真實裝的是什么?(爆米花);第二,山姆認為袋子里有什么?(巧克力)。能夠清晰地區分客觀現實與他人主觀信念,正是心智能力的核心體現。
![]()
在過去的認知測試中,這些問題能夠有效地篩查出心智發育的進程。
然而,當研究人員抱著試探性的心態將這些問題拋給最新一代的大型語言模型(LLMs)時,如Llama、Qwen等先進模型,在很大程度上能夠像一個心智成熟的人一樣,準確地回答這些問題。它們似乎真的能夠“代入”到故事角色的視角中,理解他們的信息差,并據此做出合乎邏輯的推理。
![]()
這些模型并沒有真實的生活體驗,沒有情感,也沒有意識,也沒有經歷心理學上自我覺醒的“鏡面階段”。它們對情景和主體的“理解”從何而來?
![]()
解剖一個數字幽靈
為了鑿開這個“黑箱”,斯坦福的研究團隊,展開了一場前所未有的深入“神經回路”的探險。他們試圖找到并解剖那些真正負責心智能力的功能器官。
研究團隊運用了一種基于“Hessian矩陣”的敏感度分析方法,這種方法可以精確測量模型中每一個參數對于特定任務的重要性 。他們的目標,就是找到控制心智能力的總開關。
經過精密的計算和篩選,他們發現:在擁有數十億甚至更多參數的龐大模型中,驅動ToM能力的關鍵參數,其數量占比僅為0.001%。這是一個極其稀疏、高度集中的“心智核心”。這一發現本身就顛覆了許多研究者關于高級能力在神經網絡中“廣泛分布”的傳統認知。
論文指出,這些參數并非隨機散落,而是呈現出一種結構化的低秩特性,主要集中在與注意力機制直接相關的查詢(Query)和鍵(Key)矩陣中。這暗示著,模型的社交推理能力,與其最核心的信息處理中樞注意力機制,存在著直接的物理聯系。
在初步識別出那0.001%的“心智核心”參數后,研究人員首先做了一件經典的科學工作:設立對照組。他們發現,當對這些參數進行擾動時,Llama和Qwen這類使用RoPE架構的模型,其心智能力會崩潰。
之后,他們將同樣的“手術”應用在了不使用RoPE的Jamba模型上。結果發現,Jamba的心智能力并未受到影響。因此,這種脆弱性并非普遍存在,而是與一種特定的技術選擇相關。
這種技術就是RoPE。
先理解一下RoPE是做什么的。語言本質上是一個序列,詞語的順序就定義了意義。為了讓模型理解這一點,RoPE為每一個詞的位置都賦予了一個獨特的旋轉操作。比如當一個詞出現在句子的第一個位置時,它的位置是90度,不旋轉;在第二個位置時,旋轉一個小角度;在第三個位置時,再旋轉一個小角度,以此類推。因此,每個詞在整個上下文中的相對位置,都被精確地編碼在了RoPE展示的角度標簽里。
![]()
這篇論文發現,RoPE的運作依賴于某些特定的“主導頻率激活”模式。在RoPE給每個詞做角度標記的時候,有的詞旋轉幅度很大,被稱為高頻維度。這種高頻維度一般都用來承載最重要上下文順序信息。
![]()
而且研究人員還通過進一步的攪動比較發現,那些稀疏的“心智核心”參數在模型中的作用,與“主導頻率”的模式精確地對齊。
![]()
因此,當攪動這部分參數之后,使用RoPE的模型就喪失了“上下文定位能力”,整個語言結構在它“眼中”變得模糊不清。擾動破壞了這種幾何關系,導致注意力被胡亂分散到不相關的信息上,最終瓦解了模型連貫的理解能力。
![]()
而在Jamba中擾動心智參數并不會通過位置編碼來影響其上下文定位能力。因此也就不會有心智能力的突然衰退。
不過這至少為我們解釋模型的心智能力找到一個底層基礎,即對句子前后位置的理解。
![]()
重構心智能力的基礎
這項深入“硅基大腦”的探險,為我們描繪了一個復雜如“心智理論”的智能,是如何從最基礎的規則中一步步涌現(emerge)的。
首先試搭建智能基石的語序。論文通過解剖模型心智參數,得到的一個核心結論就是,對序列和結構的精確把握,是所有高級認知能力的絕對前提。
模型首先需要一個像RoPE這樣強大而穩定的內部“GPS系統”,來構建起一個有序的、可依賴的語言世界模型。沒有對“誰在先、誰在后”、“誰對誰做了什么”這類基本位置關系的精確理解,一切后續的推理都不可能。
第二步,就是在秩序之上學習世界的規律。
在這個由秩序搭建起來的堅實骨架之上,通過對人類語言文本進行統計學分析,模型開始發現并內化語言中所蘊含的關于我們世界的規律。
比如在文本中,動詞時態的變化(如puts變為moved)以及時間副詞(如before、later)的出現,總是與事件在時間軸上的先后順序呈現出高度相關的模式。某些事件的描述(如“玻璃杯掉到地上”)總是傾向于出現在另一些事件(如“玻璃杯碎了”)之前。這些文字中的模式,構成了模型對因果關系模擬的基礎。
雖然也許模型并非真正“理解”了時間和因果,但確實通過語序的根基,能夠學習到了這些概念在人類語言中的“統計學投影”。
之后,便是智能的“涌現”。
最終,論文的作者們認為,心智能力可能并非一個孤立的認知模塊,而是“模型在掌握詞語定位和意義構建等通用機制時所產生的一種涌現屬性” 。
當一個模型對語言的底層結構(秩序)、中層規律(時間與因果)都掌握得足夠好之后,它便自然而然地獲得了進行更高級推理的能力。它能夠根據語序,為不同的角色分別模擬可能與客觀現實相悖的“信念路徑”。
這其中雖然還存在著一個潛在的Gap,因為模型想要有心智能力,必須是在預訓練中學會了一個隱含的統計學規律:一個角色的知識和信念,受其感知范圍的限制。但這都是建立在秩序、時間因果這些基礎認知之上的。
一個對高級心智能力經典的涌現解剖,到此就完成了最初的步驟。
![]()
認識涌現
最容易的方法就是重構其基礎
在2008年,著名哲學家大衛·查爾莫斯曾經對涌現現象做過一個經典分析。
![]()
簡單來說,查爾默斯將“涌現”(Emergence)定義為復雜系統從其低層次組分的相互作用中產生出高層次、新穎的整體特性。
弱涌現的核心是:高層次的現象是低層次組分相互作用的意外或不可預見的結果。但原則上,它完全可以由低層次的規律和初始條件來解釋和推導出來。
也就是說,雖然涌現這個事兒本身看起來很讓人意外,比如一堆無生命的原子組成了有生命的細胞,或一堆硅基芯片和算法產生了能理解他人意圖的“心智理論”。但它完全是可以通過物理規律解釋的,我們需要的,是通過科學方法去彌合中間的關聯性,找到那條從底層通往高層的路徑。
而這篇論文,就非常完美的證明了,想要建立起對大型語言模型“心理”的認知、破解其涌現之謎,最好的方法就是重構。
沿著這篇論文定位、解剖、重構的路徑,我們一定會逐步將類同于魔法般的技術,還原為微觀的、邏輯清晰的計算過程。
(來源:騰訊科技)
為偉大思想而生!
AI+時代,互聯網思想(wanging0123),
第一必讀自媒體
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.