PsyBrain 腦心前沿 | 公眾號 PSY-Brain_Frontier
一鍵關注,點亮星標 ??
不錯過每日前沿資訊
認知神經科學前沿文獻分享
![]()
基本信息
Title:Combined evidence from artificial neural networks and human brain-lesion models reveals that language modulates vision in human perception
發表時間:2025.12.15
發表期刊:Nature Human Behaviour
影響因子:16.0
獲取原文:
添加小助手:PSY-Brain-Frontier即可獲取PDF版本
![]()
![]()
研究背景
“我們看到的藍色,是一樣的藍色嗎?”
這不僅僅是一個哲學思辨,更是認知科學中一個經典的“雞生蛋,蛋生雞”問題:語言是否重塑了我們對世界的感知?
![]()
長久以來,傳統的視覺神經科學觀點傾向于認為,視覺處理是一個主要由外界輸入驅動的“自下而上”的過程。我們的初級視覺皮層提取線條、顏色,然后傳遞到高級視覺皮層(如腹側枕顳皮層,VOTC)進行物體識別,最后才被打上語言的標簽。在這種視角下,語言似乎只是視覺感知的“后期注腳”。
然而,隨著深度學習的爆發,尤其是像對比語言-圖像預訓練(Contrastive Language-Image Pretraining,CLIP)這樣結合了海量文本與圖像訓練的多模態大模型的出現,事情變得有趣起來。研究發現,這些“讀過書”的視覺模型,其內部表征竟然比純粹看圖訓練的模型(如ResNet或MoCo)更像人類的大腦。這是否暗示著,人類的視覺皮層在漫長的發育和學習中,其實早已被語言“滲透”了?
遺憾的是,AI模型畢竟是“黑盒”,無論它們與大腦多相似,都只能提供相關性證據,無法證明因果性。我們無法確定,是因為模型學到了類似語言的高階語義關系,還是因為模型單純用了更多的數據?為了解開這個謎題,我們需要更直接的證據,即來自人腦“損傷模型”的因果證據。
本研究巧妙地結合了最新的人工神經網絡(ANNs)與珍貴的人腦損傷數據(Lesion data),試圖回答一個核心問題:切斷語言與視覺的神經通路,會讓我們的視覺大腦“退化”回純視覺的狀態嗎?
![]()
Fig. 1 | Overview of the fMRI datasets, vision models and study 1 analysis schema.
![]()
研究核心總結
本研究通過跨學科的創新視角,揭示了語言系統對人類腹側枕顳皮層(VOTC)物體表征的動態調節作用。
![]()
Fig. 2 | Intercorrelations among vision model RDMs and their alignment with human behaviour.
多模態大模型更精準地預測了VOTC的神經活動
研究團隊首先在四個涵蓋不同任務、不同人群(包括聽障人士)的fMRI數據集上,對比了三種不同訓練機制的深度神經網絡模型對VOTC神經活動的解釋力 :
CLIP(句子級語言監督):學習圖像與自然語言描述的對應關系。
ResNet(詞匯級標簽監督):學習圖像與離散類別標簽(Label)的對應。
MoCo(無監督/自監督):僅從圖像自身的統計規律中學習,不涉及語言。
表征相似性分析(RSA)結果顯示,CLIP模型在解釋VOTC神經表征方差方面,始終優于ResNet和MoCo。這表明,包含豐富語義關系(Semantic Relations)的句子級語言信息,使機器視覺模型更接近人類的視覺皮層運作方式。此外,這種“CLIP優勢效應”在群體水平上表現出明顯的左側偏側化(Left-lateralized)趨勢,這與人類語言網絡的偏側化特征高度一致。
![]()
Fig. 3 | Language effect in VOTC across datasets.
左側角回是語言調節視覺的關鍵樞紐
為了確立因果關系,研究考察了33位腦卒中患者。研究者量化了患者腦中連接VOTC與語言網絡各節點的白質纖維束(White Matter Tracts)的完整性。
![]()
Fig. 4 | Study 2 analysis workflow linking WM integrity and model–brain correspondence in patients with chronic stroke.
核心發現令人震驚:左側VOTC與左側角回(Left Angular Gyrus, AG)之間白質通路的完整性,直接決定了視覺皮層的表征模式。
當這條通路完整時,VOTC的表征更接近CLIP模型(受語言深度影響)。
當這條通路受損時,CLIP模型的解釋力顯著下降,而MoCo模型(純視覺自監督)的解釋力反而顯著上升 。
這一“此消彼長”的現象揭示了極其深刻的機制:人類的視覺皮層并不總是處在單一的固化狀態,而是處于“純視覺輸入”與“語言調節”的動態平衡中。左側角回作為跨模態語義整合的樞紐,通過白質纖維束將語言中的關系結構“注入”視覺皮層。一旦這種注入被阻斷,視覺皮層就會發生可塑性變化,退回到一種更依賴低級視覺統計特征(類似MoCo)的處理模式。
![]()
Fig. 5 | WM integrity of left VOTC–left AG tract predicts model–brain correspondence of CLIP and MoCo (n = 33 patients).
總而言之,該研究為“語言調節視覺”的理論爭議提供了強有力的神經解剖學因果證據。它證明了語言對視覺的影響不是一種單純的自上而下的注意機制,而是深刻改變了視覺皮層對物體表征的幾何結構(Representational Geometry)。同時,這也驗證了利用腦損傷數據來評估和優化AI模型的“生物合理性”是一個極具潛力的研究范式,并再次證明了AI for Science的光明前景。
![]()
Fig. 6 | Validation analyses using vision models trained on the identical dataset.
![]()
Abstract
Comparing information structures in between deep neural networks (DNNs) and the human brain has become a key method for exploring their similarities and differences. Recent research has shown better alignment of vision–language DNN models, such as contrastive language–image pretraining (CLIP), with the activity of the human ventral occipitotemporal cortex (VOTC) than earlier vision models, supporting the idea that language modulates human visual perception. However, interpreting the results from such comparisons is inherently limited owing to the ‘black box’ nature of DNNs. Here we combine model–brain fitness analyses with human brain lesion data to examine how disrupting the communication pathway between the visual and language systems causally affects the ability of vision–language DNNs to explain the activity of the VOTC to address this. Across four diverse datasets, CLIP consistently captured unique variance in VOTC neural representations, relative to both label-supervised (ResNet) and unsupervised (MoCo) models. This advantage tended to be left-lateralized at the group level, aligning with the human language network. Analyses of 33 patients who experienced a stroke revealed that reduced white matter integrity between the VOTC and the language region in the left angular gyrus was correlated with decreased CLIP–brain correspondence and increased MoCo–brain correspondence, indicating a dynamic influence of language processing on the activity of the VOTC. These findings support the integration of language modulation in neurocognitive models of human vision, reinforcing concepts from vision–language DNN models. The sensitivity of model–brain similarity to specific brain lesions demonstrates that leveraging the manipulation of the human brain is a promising framework for evaluating and developing brain-like computer models.
![]()
請打分
這篇剛剛登上Nature Human Behaviour的研究,是否實至名歸?我們邀請您作為“云審稿人”,一同品鑒。精讀全文后,歡迎在匿名投票中打分,并在評論區分享您的深度見解。
前沿交流|歡迎加入認知神經科學前沿交流群!
![]()
解讀僅供參考,具體詳見原文及其數據
分享人:飯哥
審核:PsyBrain 腦心前沿編輯部
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.