PsyBrain 腦心前沿 | 公眾號 PSY-Brain_Frontier
一鍵關注,點亮星標 ??
不錯過每日前沿資訊
認知神經科學前沿文獻分享
![]()
基本信息
Title:Linguistic structure from a bottleneck on sequential information processing
發表時間:2025.11.24
發表期刊:Nature Human Behaviour
影響因子:16.0
獲取原文:
添加小助手:PSY-Brain-Frontier即可獲取PDF版本
![]()
![]()
研究背景
人類語言展現出一種令人著迷的“系統性”與“局部性”。當我們描述一個 “藍色的正方形” 時,我們會使用代表顏色的詞 “藍色” 和代表形狀的詞 “正方形” 并將它們拼接在一起。
這種結構看似天經地義,但在邏輯上并非唯一。理論上,我們完全可以像哈夫曼編碼那樣,用一個無法拆分的整體符號(如 “Vek”)來表示 “藍色的正方形”,或者用一種非線性的方式交錯排列音素 。
![]()
Fig. 1 | Example utterances describing an image in English and various hypothetical languages.
為什么人類語言偏偏演化成了現在這種由離散符號組成、且結構與意義高度對應的形式?長期以來,語言學界傾向于引入特定的心理表征假設或先天的語法模塊來解釋這一現象,但這往往陷入“因為有語法模塊,所以有語法結構”的循環論證,且難以解釋為何語言必須具備“局部性”(即相關的詞往往靠得很近)。
如果我們拋開復雜的語言學假設,僅從信息處理的最基本限制出發,即人類是在時間維度上處理序列信號,且認知資源(特別是用于預測未來的記憶資源)是有限的,能否推導出語言的結構規律?
近日,來自加州大學歐文分校和薩爾蘭大學的研究團隊在 Nature Human Behaviour 上發表重磅研究,提出語言的結構并非源于特殊的語法基因,而是為了適應大腦在序列信息處理中的“瓶頸”。
![]()
Fig. 2 | Two examples of linguistic systematicity as a homomorphism.
![]()
研究核心總結
本研究的核心假設基于信息論中的一個關鍵指標:預測信息(Predictive Information, 或 Excess Entropy, E)。它定義為隨機過程中,“過去”的信息與“未來”的信息之間的互信息(Mutual Information),即:
![]()
這就代表了大腦為了準確預測即將出現的語言符號,必須在記憶中維持的信息量。研究者認為,人類語言的結構演化遵循最小化預測信息的原則,以適應認知系統的存儲瓶頸。
![]()
Fig. 3 | Schematic calculation of predictive information as the sum of n-gram entropies hn minus the asymptotic entropy rate h.
系統性與整體性的自發涌現
通過模擬實驗,研究者發現,當強制要求編碼系統最小化預測信息時,系統會自動演化出類似人類自然語言的結構特性。
對于相互獨立的語義特征(如“貓”和“狗”作為獨立實體),最優編碼是系統性(Systematic)的,即將其拆分為獨立的詞匯并拼接;
對于高度相關的語義特征(如“貓的頭部”和“貓的身體”總是同時出現),最優編碼則是整體性(Holistic)的,即將其融合為一個不可拆分的語素(Morpheme),如單詞 "cat" 本身不再包含對應頭部或身體的部件 。這解釋了為何語言在詞匯層面是任意且整體的,而在短語和句子層面是系統且組合的。
![]()
Fig. 4 | Simulations of languages for coin-flip distributions.
“Behaghel定律”的信息論本質
語言學著名的Behaghel定律指出“在心理上緊密相關的元素在物理上也靠得近”。研究表明,這一現象是最小化預測信息的數學必然結果。當編碼系統將統計上相互依賴(高互信息)的元素放置在鄰近位置(即保持局部性)時,預測所需的記憶負荷(E)最低。
![]()
Fig. 5 | Simulations of codes with different orders of elements.
跨語言實證證據
研究者利用大規模多語言語料庫(涵蓋英語、匈牙利語、土耳其語等61種語言),在音系(Phonotactics)、形態學(Morphology)和句法(Syntax)三個層面上計算了真實語言的預測信息。
![]()
Fig. 6 | Evidence that natural languages are configured in a way that reduces predictive information, in phonotactics, morphology and syntax.
結果顯示,與打亂結構、破壞局部性或非自然的基線模型相比,真實的人類語言均表現出顯著更低的預測信息。例如,在名詞短語的詞序上,跨語言中最常見的詞序(如 D-N-A-n 或 n-A-N-D)恰恰是那些計算出的預測信息最低的排序 。
![]()
Fig. 7 | Examples of systematic morphology and syntax, and baselines used in experiments.
![]()
Fig. 8 | Evidence that word order and lexical semantics are configured in ways that reduce predictive information.
總的來看,該研究建立了一個強有力的理論框架,將語言的代數結構(句法樹、成分組合)與統計學習機制(信息壓縮、序列預測)統一起來。它揭示了語言之所以呈現出層次化和組合性,是因為這種結構是對大腦有限的序列預測能力的最優解 。這不僅挑戰了生成語法關于先天語言模塊的必要性假設,也為理解大語言模型(LLMs)為何能通過簡單的“下一個token預測”任務習得復雜的語言結構提供了理論解釋:因為人類語言本身就是為了易于序列預測而被優化的。
![]()
Abstract
Human language has a distinct systematic structure, where utterances break into individually meaningful words that are combined to form phrases. Here we show that natural-language-like systematicity arises in codes that are constrained by a statistical measure of complexity called predictive information, also known as excess entropy. Predictive information is the mutual information between the past and future of a stochastic process. In simulations, we find that codes that minimize predictive information break messages into groups of approximately independent features that are expressed systematically and locally, corresponding to words and phrases. Next, drawing on cross-linguistic text corpora, we find that actual human languages are structured in a way that yields low predictive information compared with baselines at the levels of phonology, morphology, syntax and lexical semantics. Our results establish a link between the statistical and algebraic structure of language and reinforce the idea that these structures are shaped by communication under general cognitive constraints.
前沿交流|歡迎加入認知神經科學前沿交流群!
![]()
核心圖表、方法細節、統計結果與討論見原文及其拓展數據。
分享人:飯哥
審核:PsyBrain 腦心前沿編輯部
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.