PsyBrain 腦心前沿 | 公眾號 PSY-Brain_Frontier
一鍵關注,點亮星標 ??
不錯過每日前沿資訊
認知神經(jīng)科學前沿文獻分享
![]()
基本信息:
Title:Linguistic coupling between neural systems for speech production and comprehension during real-time dyadic conversations
發(fā)表時間:2025.12.17
Journal:Neuron
影響因子:15.0
獲取原文:
添加小助手:PSY-Brain-Frontier即可獲取PDF版本
![]()
![]()
研究動機與背景
人類語言的核心用途是在大腦間傳遞思想,在日常對話中,理解(聽)與產(chǎn)生(說)是交織在一起的,但以往的研究通常將這兩個功能隔離開來,使用受控的、非交互的任務進行觀察。雖然已有證據(jù)表明兩者之間存在共享的表征和機制,但由于缺乏對語言特征的顯式建模以及對實時互動對話的研究,科學界一直無法精確測試這兩個系統(tǒng)在真實溝通中的重疊程度。此外,傳統(tǒng)的對比法或內(nèi)容無關的分析方法(如ISC)無法告知我們大腦間究竟“共享了什么內(nèi)容”。因此,作者試圖通過結合fMRI超掃描技術與大語言模型(LLM)的顯式特征建模,解決在自然互動中語言產(chǎn)生與理解系統(tǒng)如何對齊這一關鍵科學問題,這對于理解人類溝通的神經(jīng)本質(zhì)具有重要意義。
![]()
實驗設計與方法邏輯
作者提出了三個核心假設:
語言產(chǎn)生和理解過程在語言網(wǎng)絡的中高層區(qū)域(如STG, IFG)會在功能調(diào)諧上實質(zhì)性重疊,而在早期的感知和運動區(qū)域重疊最少(Figure 1B);
雖然被動聽故事與對話中的主動聽存在共享的神經(jīng)調(diào)諧,但實時對話會依賴于一些聽故事模型無法完全捕捉的獨特語言特征;
第三,在大腦間的耦合分析中,預計語言區(qū)域會出現(xiàn)耦合,但耦合最強的區(qū)域可能是與社會認知相關的區(qū)域。
![]()
Figure 1. Data collection and modeling framework
為了解決實時互動中的語言對齊問題,作者設計了一套基于fMRI超掃描的實驗范式,同時記錄30對被試(共60人)進行自由對話時的全腦活動。作者引入了GPT-2大語言模型來提取對話文本的上下文詞嵌入(embeddings),將其作為顯式的語言特征空間,通過帶狀嶺回歸(banded ridge regression)建立從模型特征到BOLD信號的線性映射模型(即編碼模型)。這種方法的邏輯在于:通過LLM捕獲的高維語言結構,可以量化語言產(chǎn)生和理解過程中神經(jīng)調(diào)諧(functional tuning)的相似性,從而超越簡單的激活區(qū)對比。此外,作者還引入了被試被動聽故事的任務作為對照,用以區(qū)分“主動交互”與“被動理解”在神經(jīng)表征上的異同,并利用交叉驗證和方差劃分(variance partitioning)等手段,確保LLM特征捕捉的是獨特的語言學信息,而非聲學或運動混淆項。
![]()
核心發(fā)現(xiàn)
語言產(chǎn)生與理解在全腦范圍內(nèi)高度重疊
Figure 2A可以看出,LLM特征在核心語言網(wǎng)絡(STG, IFG, MFG)以及高層區(qū)域(TPJ, PMC)均表現(xiàn)出顯著的預測性能。Figure 2B進一步量化發(fā)現(xiàn),各ROI中約80%的編碼性能可歸因于共享的功能調(diào)諧(Shared weights),證明了兩者共用一套統(tǒng)一的語言處理機制。
![]()
Figure 2. Within-subject speaking and listening encoding performance
對話環(huán)境能顯著提升神經(jīng)表征的預測力:
對比Figure 3發(fā)現(xiàn),雖然從被動聽故事訓練的模型可以部分推廣到對話任務中,但訓練于對話數(shù)據(jù)的模型表現(xiàn)明顯更優(yōu)(理解提升41%,產(chǎn)生提升49%)。這表明實時對話中存在獨特的語言處理需求,如預測、響應準備和共同基準(common ground)的建立。
![]()
Figure 3. Encoding models trained on passive listening partially generalize to neural responses during conversations
LLM上下文嵌入優(yōu)于傳統(tǒng)聲學或語音特征
Figure 4的方差劃分分析顯示,LLM捕獲的“上下文語義”在雙側大腦區(qū)域提供了超越聲學(Acoustic)和音位(Phonemic)特征的獨特解釋力,尤其是在高階腦區(qū)。
![]()
Figure 4. Model comparison and variance partitioning
大腦間的耦合主要由社會認知腦區(qū)驅動
Figure 5B展示了模型驅動的大腦間耦合(Speaker-Listener coupling),發(fā)現(xiàn)最顯著的對齊出現(xiàn)在右側顳下回(pSTG)、顳頂節(jié)點(TPJ)和雙側前楔葉(PMC)。這些區(qū)域通常與心理理論和社交認知相關,暗示了成功對話不僅依賴語言對齊,更依賴社交表征的對齊。
![]()
Figure 5. Model-based speaker-listener coupling
![]()
省流總結
本文探討了實時互動對話中語言產(chǎn)生(說)與理解(聽)在神經(jīng)層面如何共存的問題。作者利用fMRI超掃描技術實時記錄對話雙方的腦活動,并創(chuàng)新性地利用大語言模型(GPT-2)作為語言中介特征空間。研究發(fā)現(xiàn),說與聽在人類語言網(wǎng)絡中共享了約80%的神經(jīng)調(diào)諧,證明了兩者共用一套統(tǒng)一的內(nèi)部表征。此外,研究揭示了實時對話比被動聽講更能激發(fā)深層的神經(jīng)處理,且對話雙方的大腦耦合主要發(fā)生在負責社交認知和意圖理解的腦區(qū)。這一成果不僅深化了我們對語言神經(jīng)機制的理解,也強調(diào)了社交大腦在自然溝通中的核心作用。
![]()
AI銳評
該研究的亮點在于其卓越的“生態(tài)效度”,它跳出了實驗室高度受控但死板的任務范式,直接在自由對話的動態(tài)場景下捕捉大腦信號,并巧妙利用LLM解決了復雜語境下語言特征難以量化的難題。這種從“單腦受控”到“雙腦互動”的跨越是神經(jīng)科學的重要趨勢。然而,研究也存在一定局限:fMRI較低的時間分辨率(1.5s TR)可能掩蓋了對話中快速切換的微觀神經(jīng)動力學;此外,由于掃描環(huán)境限制,被試無法面對面交流且需按鍵切換麥克風,這在一定程度上削弱了對話的自然性。盡管如此,這篇論文依然是計算神經(jīng)語言學領域的一項里程碑式工作。
![]()
請打分
這篇剛剛登上Neuron的研究,是否實至名歸?我們邀請您作為“云審稿人”,一同品鑒。精讀全文后,歡迎在匿名投票中打分,并在評論區(qū)分享您的深度見解。
前沿交流|歡迎加入認知神經(jīng)科學前沿交流群!
![]()
核心圖表、方法細節(jié)、統(tǒng)計結果與討論見原文及其拓展數(shù)據(jù)。
分享人:天天
審核:PsyBrain 腦心前沿編輯部
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.