網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

只靠預(yù)測下一個詞，大模型也能“長出概念”？| PNAS 揭示類人概念表征的涌現(xiàn)

2025-12-01 20:00:24　來源: PsyBrain腦心前沿

北京舉報

分享至

PsyBrain 腦心前沿 | 公眾號 PSY-Brain_Frontier

一鍵關(guān)注，點亮星標(biāo) ??

不錯過每日前沿資訊

認(rèn)知神經(jīng)科學(xué)前沿文獻分享

基本信息：

Title:Revealing emergent human-like conceptual representations from language prediction

發(fā)表時間：2025.10.31

Journal:PNAS

影響因子：9.1

獲取原文：

添加小助手:PSY-Brain-Frontier即可獲取PDF版本

引言

我們?nèi)粘Ｉ钪须S時都在用“概念（concept）”思考：看到一只從未見過的狗，你仍然能立刻認(rèn)出“這是狗”；看到朋友圈發(fā)的落日照片，會自動想到“太陽”“傍晚”“下班真好”；聽到別人說“這個人就是我們組的太陽”，你又能從“太陽”這個物理天體，瞬間切換到“溫暖、積極、帶來能量”的抽象含義。

概念就是我們心里對世界的“壓縮包”，把無窮多的具體經(jīng)驗，濃縮成一個可以反復(fù)調(diào)用的心理單元。

傳統(tǒng)認(rèn)知科學(xué)認(rèn)為，人類之所以能建立這樣穩(wěn)定、可泛化的概念，是因為我們有豐富的物理經(jīng)驗和社會經(jīng)驗：看得見、摸得著、互動得了。

孩子通過看太陽升起落下、感受陽光溫度、在故事書里看到“太陽公公”，一點點學(xué)會什么是“太陽”。而且概念還不是孤立存在的，“太陽”可以類比“原子核”，“狗”既是“動物（animal）”，又是“寵物（pet）”，概念之間構(gòu)成一張錯綜復(fù)雜的網(wǎng)絡(luò)，這些關(guān)系也是我們理解世界的關(guān)鍵。

但近幾年出現(xiàn)的大語言模型（large language model, LLM）打亂了很多人的直覺。它們只是在海量文本上做一件看似“機械”的事：預(yù)測下一個詞（next-token prediction）。沒有看過真實世界，沒有視覺、聽覺、觸覺輸入，卻在各種語言任務(wù)、考試題目、甚至類心理學(xué)測驗上，表現(xiàn)得越來越像人。這就引出了一個尖銳的問題：

只靠預(yù)測下一個詞，LLM 里會不會也自發(fā)形成某種“概念”？這些“概念”到底有多像人類心里的概念？

圍繞這個問題，學(xué)界爭論非常激烈。

一派認(rèn)為 LLM 只是“隨機鸚鵡”（stochastic parrot）：它只是學(xué)會了統(tǒng)計共現(xiàn)，把詞按概率接下去，缺乏真正的理解（understanding）和概念（concept），更談不上與現(xiàn)實世界的聯(lián)系。

另一派則指出，僅僅看輸出現(xiàn)象，很難否認(rèn)它在很多任務(wù)上展現(xiàn)出的“概念化”能力，而且人類自己在使用概念時，語言本身就是極其重要的線索，意義在很大程度上就體現(xiàn)在概念之間的關(guān)系（conceptual relations）里。

在更理論的層面，這場爭論還牽扯到老牌的哲學(xué)與認(rèn)知科學(xué)分歧：符號主義（symbolism） VS 連接主義（connectionism）。

符號主義強調(diào)概念是類似“符號”的離散單元，可以組合推理、構(gòu)成邏輯結(jié)構(gòu)；

連接主義則把概念看作神經(jīng)網(wǎng)絡(luò)中分布式、漸進的激活模式，更適合處理噪聲和經(jīng)驗學(xué)習(xí)。

人類概念似乎同時具備兩方面的優(yōu)點：既有可以清晰界定、可用語言定義的“概念內(nèi)涵”（例如“月亮是地球的天然衛(wèi)星”），又有連續(xù)、漸變的表征空間（例如“獵豹比貓快，但沒快到離譜”的“快慢等級”）。那 LLM 里是否也存在類似的結(jié)構(gòu)？

這篇發(fā)表在 PNAS 的工作，正面回應(yīng)了這些爭議。作者團隊提出：

與其只看模型輸出，不如直接去“挖”模型內(nèi)部的概念表征（conceptual representation）；關(guān)鍵是要設(shè)計一個任務(wù)，讓模型在一個比較接近“人類用概念”的情境下工作，然后分析它此時形成的內(nèi)部向量結(jié)構(gòu)。

為此，他們把日常生活中常見的“反向詞典任務(wù)（reverse dictionary）”當(dāng)成了一個通用的“概念探針”。所謂反向詞典，就是給你一段文字描述，讓你猜是什么詞，比如：“地球唯一的天然衛(wèi)星，夜空中圓圓亮亮的那個東西”——你會回答“月亮”。

對人類來說，這個任務(wù)其實是在做兩件事：

根據(jù)語言描述，在腦中構(gòu)造一個概念
再從已有詞匯中找出最匹配這個概念的詞

作者認(rèn)為，如果我們讓 LLM 在類似情境下工作，并且在它“準(zhǔn)備給出那個詞”的瞬間，讀取它內(nèi)部某一層的向量，就可以把這向量視為模型對該概念的“心理表征”。

論文中圖 1（第 3 頁）畫出了這一流程：模型先看到若干“描述 ? 詞（description ? word）”的示例作為上下文，再看到一個只給描述、不給詞的查詢句子，最后在箭頭位置輸出最可能的詞。“箭頭”處的隱藏狀態(tài)向量，就是作者提取的概念向量。

接下來作者做了幾件事：

考察 LLM 是否真的能從定義中穩(wěn)定“長出”概念

他們利用 THINGS 數(shù)據(jù)庫中近 2000 個日常物體概念的定義描述，對開源大模型 LLaMA3-70B 等進行大規(guī)模測試，發(fā)現(xiàn)：只需少量示例（十幾個）作為上下文，模型就能在反向詞典任務(wù)中達到接近 90% 的嚴(yán)格詞匯匹配準(zhǔn)確率。這說明，模型不是簡單地“記字符串”，而是能把不同表述統(tǒng)一到同一個概念上。

看這些概念向量在不同上下文中是否仍保持一個“共享結(jié)構(gòu)”

作者反復(fù)更換示例組合、演示順序等“語境”，每次都抽取模型內(nèi)部的概念表征，并用表征相似性分析（representational similarity analysis, RSA）去看：不同語境下，同一批概念之間的“距離關(guān)系”是否穩(wěn)定。結(jié)果顯示，當(dāng)示例數(shù)量增加到 20 多個左右時，不同語境下的表示空間高度相似，且這種收斂程度與模型在任務(wù)上的準(zhǔn)確率高度相關(guān)。這意味著，模型在語言預(yù)測訓(xùn)練下，自發(fā)形成了一個相對**上下文無關(guān)（context-independent）**的概念結(jié)構(gòu)。

把模型里的概念結(jié)構(gòu)，拿去預(yù)測人類行為和腦活動

在心理學(xué)層面，作者用這些概念向量去預(yù)測人類的語義相似性判斷、類別歸屬（比如“動物”“食物”等）、以及“獵豹有多快”“鯨有多大”這類沿特定特征維度的等級評分。模型的表現(xiàn)整體上明顯優(yōu)于傳統(tǒng)靜態(tài)詞向量（如 FastText、GloVe），并在多數(shù)數(shù)據(jù)集上接近人類一致性的“上限”。

在神經(jīng)科學(xué)層面，他們利用 THINGS 數(shù)據(jù)集中的功能磁共振成像（functional magnetic resonance imaging, fMRI）數(shù)據(jù)，用線性編碼模型預(yù)測人腦在看物體圖片時的腦區(qū)激活。結(jié)果顯示，LLM 概念向量能解釋的方差廣泛分布于視覺皮層及高階語義相關(guān)區(qū)域，尤其在側(cè)枕葉、梭狀回等“類別選擇性”區(qū)域表現(xiàn)突出。

當(dāng)然，這種類人相似性也并非完美。作者發(fā)現(xiàn)，模型尤其在顏色、紋理等強感知維度上，與人類判斷存在顯著差距；在 fMRI 分析中，基于人類相似性數(shù)據(jù)訓(xùn)練的表征，在早期視覺皮層（如 V1）對腦活動的解釋力仍明顯優(yōu)于 LLM 表征。換句話說，只靠語言預(yù)測長出的概念，已經(jīng)能很好覆蓋高層語義結(jié)構(gòu)，但對細(xì)膩的感知細(xì)節(jié)還不夠敏感。

總體來看，這篇工作給了一個相當(dāng)有力、但也相當(dāng)謹(jǐn)慎的結(jié)論：在完全沒有“真實世界”感知輸入、只做下一詞預(yù)測的前提下，大語言模型內(nèi)部會自發(fā)涌現(xiàn)出一個結(jié)構(gòu)化的、與人類相當(dāng)接近的概念空間。這個空間兼具“符號式”的清晰可定義性與“向量式”的連續(xù)性與可計算性，既能支撐類似人類的相似性判斷和分類，又在很大程度上映射到人腦中對概念的編碼方式。

這不僅為理解 LLM “到底懂不懂”提供了一個新的角度，也為未來把 LLM 當(dāng)作“可控、可觀察的心智模型”，去研究人類概念系統(tǒng)本身，打下了重要基礎(chǔ)。

核心圖表

Fig. 1. Illustration of the reverse dictionary task as a conceptual probe.

Fig. 2. Performance of LLaMA3-70B on the reverse dictionary task measured through exact match accuracy.

Fig. 3. LLMs converge toward a similar representational structure of concepts.

Fig. 4. Alignment between LLM-derived conceptual representations and psychological measures of similarity.

Fig. 5. Performance of conceptual representations derived from LLaMA3-70B in predicting context-dependent human ratings across 52 category–feature pairs.

Fig. 6. Comparison of LLM-derived conceptual representations and static word embeddings in predicting context-dependent human ratings.

Fig. 7. Prediction performance of LLM-derived conceptual representation (LLaMA3-70B) in voxel-wise encoding and comparisons with baseline models.

前沿交流|歡迎加入認(rèn)知神經(jīng)科學(xué)前沿交流群！

核心圖表、方法細(xì)節(jié)、統(tǒng)計結(jié)果與討論見原文及其拓展數(shù)據(jù)。

分享人：BQ

審核：PsyBrain 腦心前沿編輯部

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.