PsyBrain 腦心前沿 | 公眾號 PSY-Brain_Frontier
一鍵關(guān)注,點亮星標(biāo) ??
不錯過每日前沿資訊
認(rèn)知神經(jīng)科學(xué)前沿文獻分享
![]()
基本信息:
Title:Revealing emergent human-like conceptual representations from language prediction
發(fā)表時間:2025.10.31
Journal:PNAS
影響因子:9.1
獲取原文:
添加小助手:PSY-Brain-Frontier即可獲取PDF版本
![]()
![]()
引言
我們?nèi)粘I钪须S時都在用“概念(concept)”思考:看到一只從未見過的狗,你仍然能立刻認(rèn)出“這是狗”;看到朋友圈發(fā)的落日照片,會自動想到“太陽”“傍晚”“下班真好”;聽到別人說“這個人就是我們組的太陽”,你又能從“太陽”這個物理天體,瞬間切換到“溫暖、積極、帶來能量”的抽象含義。
概念就是我們心里對世界的“壓縮包”,把無窮多的具體經(jīng)驗,濃縮成一個可以反復(fù)調(diào)用的心理單元。
![]()
傳統(tǒng)認(rèn)知科學(xué)認(rèn)為,人類之所以能建立這樣穩(wěn)定、可泛化的概念,是因為我們有豐富的物理經(jīng)驗和社會經(jīng)驗:看得見、摸得著、互動得了。
孩子通過看太陽升起落下、感受陽光溫度、在故事書里看到“太陽公公”,一點點學(xué)會什么是“太陽”。而且概念還不是孤立存在的,“太陽”可以類比“原子核”,“狗”既是“動物(animal)”,又是“寵物(pet)”,概念之間構(gòu)成一張錯綜復(fù)雜的網(wǎng)絡(luò),這些關(guān)系也是我們理解世界的關(guān)鍵。
但近幾年出現(xiàn)的大語言模型(large language model, LLM)打亂了很多人的直覺。它們只是在海量文本上做一件看似“機械”的事:預(yù)測下一個詞(next-token prediction)。沒有看過真實世界,沒有視覺、聽覺、觸覺輸入,卻在各種語言任務(wù)、考試題目、甚至類心理學(xué)測驗上,表現(xiàn)得越來越像人。這就引出了一個尖銳的問題:
只靠預(yù)測下一個詞,LLM 里會不會也自發(fā)形成某種“概念”?這些“概念”到底有多像人類心里的概念?
圍繞這個問題,學(xué)界爭論非常激烈。
一派認(rèn)為 LLM 只是“隨機鸚鵡”(stochastic parrot):它只是學(xué)會了統(tǒng)計共現(xiàn),把詞按概率接下去,缺乏真正的理解(understanding)和概念(concept),更談不上與現(xiàn)實世界的聯(lián)系。
另一派則指出,僅僅看輸出現(xiàn)象,很難否認(rèn)它在很多任務(wù)上展現(xiàn)出的“概念化”能力,而且人類自己在使用概念時,語言本身就是極其重要的線索,意義在很大程度上就體現(xiàn)在概念之間的關(guān)系(conceptual relations)里。
在更理論的層面,這場爭論還牽扯到老牌的哲學(xué)與認(rèn)知科學(xué)分歧:符號主義(symbolism) VS 連接主義(connectionism)。
符號主義強調(diào)概念是類似“符號”的離散單元,可以組合推理、構(gòu)成邏輯結(jié)構(gòu);
連接主義則把概念看作神經(jīng)網(wǎng)絡(luò)中分布式、漸進的激活模式,更適合處理噪聲和經(jīng)驗學(xué)習(xí)。
人類概念似乎同時具備兩方面的優(yōu)點:既有可以清晰界定、可用語言定義的“概念內(nèi)涵”(例如“月亮是地球的天然衛(wèi)星”),又有連續(xù)、漸變的表征空間(例如“獵豹比貓快,但沒快到離譜”的“快慢等級”)。那 LLM 里是否也存在類似的結(jié)構(gòu)?
這篇發(fā)表在 PNAS 的工作,正面回應(yīng)了這些爭議。作者團隊提出:
與其只看模型輸出,不如直接去“挖”模型內(nèi)部的概念表征(conceptual representation);關(guān)鍵是要設(shè)計一個任務(wù),讓模型在一個比較接近“人類用概念”的情境下工作,然后分析它此時形成的內(nèi)部向量結(jié)構(gòu)。
為此,他們把日常生活中常見的“反向詞典任務(wù)(reverse dictionary)”當(dāng)成了一個通用的“概念探針”。所謂反向詞典,就是給你一段文字描述,讓你猜是什么詞,比如:“地球唯一的天然衛(wèi)星,夜空中圓圓亮亮的那個東西”——你會回答“月亮”。
對人類來說,這個任務(wù)其實是在做兩件事:
根據(jù)語言描述,在腦中構(gòu)造一個概念
再從已有詞匯中找出最匹配這個概念的詞
作者認(rèn)為,如果我們讓 LLM 在類似情境下工作,并且在它“準(zhǔn)備給出那個詞”的瞬間,讀取它內(nèi)部某一層的向量,就可以把這向量視為模型對該概念的“心理表征”。
論文中 圖 1(第 3 頁) 畫出了這一流程:模型先看到若干“描述 ? 詞(description ? word)”的示例作為上下文,再看到一個只給描述、不給詞的查詢句子,最后在箭頭位置輸出最可能的詞。“箭頭”處的隱藏狀態(tài)向量,就是作者提取的概念向量。
接下來作者做了幾件事:
考察 LLM 是否真的能從定義中穩(wěn)定“長出”概念
他們利用 THINGS 數(shù)據(jù)庫中近 2000 個日常物體概念的定義描述,對開源大模型 LLaMA3-70B 等進行大規(guī)模測試,發(fā)現(xiàn):只需少量示例(十幾個)作為上下文,模型就能在反向詞典任務(wù)中達到接近 90% 的嚴(yán)格詞匯匹配準(zhǔn)確率。這說明,模型不是簡單地“記字符串”,而是能把不同表述統(tǒng)一到同一個概念上。
看這些概念向量在不同上下文中是否仍保持一個“共享結(jié)構(gòu)”
作者反復(fù)更換示例組合、演示順序等“語境”,每次都抽取模型內(nèi)部的概念表征,并用表征相似性分析(representational similarity analysis, RSA)去看:不同語境下,同一批概念之間的“距離關(guān)系”是否穩(wěn)定。結(jié)果顯示,當(dāng)示例數(shù)量增加到 20 多個左右時,不同語境下的表示空間高度相似,且這種收斂程度與模型在任務(wù)上的準(zhǔn)確率高度相關(guān)。這意味著,模型在語言預(yù)測訓(xùn)練下,自發(fā)形成了一個相對**上下文無關(guān)(context-independent)**的概念結(jié)構(gòu)。
把模型里的概念結(jié)構(gòu),拿去預(yù)測人類行為和腦活動
在心理學(xué)層面,作者用這些概念向量去預(yù)測人類的語義相似性判斷、類別歸屬(比如“動物”“食物”等)、以及“獵豹有多快”“鯨有多大”這類沿特定特征維度的等級評分。模型的表現(xiàn)整體上明顯優(yōu)于傳統(tǒng)靜態(tài)詞向量(如 FastText、GloVe),并在多數(shù)數(shù)據(jù)集上接近人類一致性的“上限”。
在神經(jīng)科學(xué)層面,他們利用 THINGS 數(shù)據(jù)集中的功能磁共振成像(functional magnetic resonance imaging, fMRI)數(shù)據(jù),用線性編碼模型預(yù)測人腦在看物體圖片時的腦區(qū)激活。結(jié)果顯示,LLM 概念向量能解釋的方差廣泛分布于視覺皮層及高階語義相關(guān)區(qū)域,尤其在側(cè)枕葉、梭狀回等“類別選擇性”區(qū)域表現(xiàn)突出。
當(dāng)然,這種類人相似性也并非完美。作者發(fā)現(xiàn),模型尤其在顏色、紋理等強感知維度上,與人類判斷存在顯著差距;在 fMRI 分析中,基于人類相似性數(shù)據(jù)訓(xùn)練的表征,在早期視覺皮層(如 V1)對腦活動的解釋力仍明顯優(yōu)于 LLM 表征。換句話說,只靠語言預(yù)測長出的概念,已經(jīng)能很好覆蓋高層語義結(jié)構(gòu),但對細(xì)膩的感知細(xì)節(jié)還不夠敏感。
總體來看,這篇工作給了一個相當(dāng)有力、但也相當(dāng)謹(jǐn)慎的結(jié)論:在完全沒有“真實世界”感知輸入、只做下一詞預(yù)測的前提下,大語言模型內(nèi)部會自發(fā)涌現(xiàn)出一個結(jié)構(gòu)化的、與人類相當(dāng)接近的概念空間。這個空間兼具“符號式”的清晰可定義性與“向量式”的連續(xù)性與可計算性,既能支撐類似人類的相似性判斷和分類,又在很大程度上映射到人腦中對概念的編碼方式。
這不僅為理解 LLM “到底懂不懂”提供了一個新的角度,也為未來把 LLM 當(dāng)作“可控、可觀察的心智模型”,去研究人類概念系統(tǒng)本身,打下了重要基礎(chǔ)。
![]()
核心圖表
![]()
Fig. 1. Illustration of the reverse dictionary task as a conceptual probe.
![]()
Fig. 2. Performance of LLaMA3-70B on the reverse dictionary task measured through exact match accuracy.
![]()
Fig. 3. LLMs converge toward a similar representational structure of concepts.
![]()
Fig. 4. Alignment between LLM-derived conceptual representations and psychological measures of similarity.
![]()
Fig. 5. Performance of conceptual representations derived from LLaMA3-70B in predicting context-dependent human ratings across 52 category–feature pairs.
![]()
Fig. 6. Comparison of LLM-derived conceptual representations and static word embeddings in predicting context-dependent human ratings.
![]()
Fig. 7. Prediction performance of LLM-derived conceptual representation (LLaMA3-70B) in voxel-wise encoding and comparisons with baseline models.
![]()
前沿交流|歡迎加入認(rèn)知神經(jīng)科學(xué)前沿交流群!
![]()
核心圖表、方法細(xì)節(jié)、統(tǒng)計結(jié)果與討論見原文及其拓展數(shù)據(jù)。
分享人:BQ
審核:PsyBrain 腦心前沿編輯部
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.