PsyBrain 腦心前沿 | 公眾號 PSY-Brain_Frontier
一鍵關注,點亮星標 ??
不錯過每日前沿資訊
認知神經科學前沿文獻分享
![]()
基本信息:
Title:Cross-modal deep generative models reveal the cortical representation of dancing
發表時間:2025.11.18
Journal:Nature Communications
影響因子:15.7
獲取原文:
添加小助手:PSY-Brain-Frontier即可獲取PDF版本
![]()
![]()
研究動機與背景
舞蹈是一種古老且整體的藝術形式,天然融合了動態身體運動與韻律音樂,為研究跨模態認知和情緒處理提供了極佳的窗口。然而,以往的神經科學研究多依賴單模態刺激(如無聲視頻或純音頻),或者使用高度控制但缺乏生態效度的人工刺激(如光點生物運動),導致難以量化大腦如何在真實場景下處理復雜的跨模態信息。盡管已有一些使用自然舞蹈視頻的研究,但其分析通常局限于粗糙的片段級指標,無法捕捉瞬間的運動與音樂交互如何共同塑造神經活動。此外,關于專業舞者與新手在神經表征上的差異,以往研究多關注舞蹈的單一側面,缺乏在整體觀賞體驗下的系統性比較。因此,作者試圖通過引入先進的跨模態深度生成模型,解決在自然情境下量化舞蹈多模態特征及其大腦表征這一關鍵科學問題。
![]()
實驗設計與方法邏輯
為了解決上述問題,作者采用了一種結合自然主義神經成像與“神經AI(NeuroAI)”的策略,利用深度生成模型作為大腦活動的模擬器。研究團隊首先選擇了AIST Dance DB數據庫中包含豐富標注的街舞視頻作為刺激材料,并利用最先進的跨模態深度生成模型EDGE(Editable Dance GEneration)來提取特征。EDGE模型通過Transformer架構整合音頻和運動輸入來預測下一個動作,這在計算機制上被認為與人類的預測性認知處理高度契合。作者構建了體素級的編碼模型(Voxel-wise encoding models),將從EDGE提取的音頻、運動以及跨模態特征(Cross-modal features)作為預測變量,利用嶺回歸算法來預測14名參與者(包含7名專家和7名新手)觀看5小時舞蹈視頻時的fMRI BOLD信號。通過這種方法,作者不僅能夠比較不同類型特征(單模態 vs 跨模態)對大腦活動的解釋力,還能通過“計算機模擬(in silico simulation)”技術,生成人工合成的錯配刺激或分析特定舞蹈概念(如“無聊”、“美感”)與大腦活動的關聯,從而定量解構復雜的舞蹈觀賞體驗。
![]()
Fig. 1 | Experiment and modeling overview.
![]()
核心發現
發現1:跨模態特征對大腦活動的卓越預測力
相比于傳統的單模態特征(僅音頻或僅運動),從EDGE模型中提取的跨模態特征能更有效地解釋大腦活動,特別是在高級視覺皮層(如前枕溝)和上顳溝(STS)等聯合腦區。Figure 2 展示了編碼模型的預測性能,顯示跨模態特征(CM5層)在廣泛的皮層區域(包括視覺和聽覺區域)均能顯著預測大腦反應,且在特定感興趣區(ROI)的表現優于單模態特征。
![]()
Fig. 2 | Encoding model prediction performance.
發現2:不同腦區對舞蹈特征的獨特偏好
通過堆疊嶺回歸分析各特征的獨特貢獻,研究揭示了運動特征主要由背側視覺流處理,音頻特征由聽覺皮層及腹側視覺流處理,而跨模態特征則顯著貢獻于頂內溝(IPS)、楔前葉和STS等高級聯合區域。Figure 3 直觀地展示了不同特征在大腦皮層上的權重分布,證實了跨模態整合主要發生在該類高級腦區 。
![]()
Fig. 3 | Unique contributions of different features to prediction performance
發現3:舞蹈概念與默認模式網絡(DMN)的關聯
通過計算機模擬分析42種舞蹈相關概念與大腦活動的關系,發現“動態感(Dynamics)”、“無聊(Boredom)”和“審美欣賞(Aesthetic appreciation)”與大腦活動相關性最強。Figure 4 顯示,“動態感”與楔前葉和內側前額葉皮層(mPFC)等默認模式網絡區域的活動呈正相關,而“無聊”則呈負相關,表明這些高階認知區域參與了對舞蹈的審美和情感評價 。
![]()
Fig. 4 | Concepts represented in the brain during dance viewing
此外,作者還發現專家與新手在面對舞蹈動作的神經表征上存在差異,可能是由于各自獨特的藝術背景導致的(Fig5)。而利用模擬器生成“人工錯配”視頻(原有動作配隨機音樂)則會導致額葉的更高的激活(Fig6),詳情可以見原文。
![]()
省流總結
這項發表于Nature Communications的研究創新性地結合了跨模態深度生成AI模型(EDGE)與fMRI技術,對人類觀看舞蹈時的神經機制進行了自然主義條件下的量化研究。核心成果表明,模擬人類預測機制的AI跨模態特征能比簡單特征更精準地預測大腦活動,揭示了頂葉和顳葉在視聽整合中的關鍵作用。此外,研究發現專家舞者雖然神經反應更強烈,但個體間差異遠大于新手,展現了專業經驗帶來的獨特審美視角。研究還建立了“動態感”和“審美”體驗與默認模式網絡(DMN)的聯系,為理解藝術感知的神經基礎提供了新的計算框架。
![]()
AI 銳評
這篇文章是“NeuroAI”領域的又一力作,其最大亮點在于巧妙地利用生成式AI作為“代理”,解決了自然主義刺激(如舞蹈)難以量化建模的痛點,尤其是通過“In silico”模擬來生成對照刺激(如錯配音樂)的思路非常精彩,為藝術與腦科學的交叉研究提供了極具操作性的范式。然而,研究也存在一定局限:使用的刺激主要局限于強節奏耦合的街舞,結論是否能推廣到現代舞或芭蕾等其他舞種尚存疑;雖然發現了專家個體差異大這一有趣現象,但對于導致這種差異的具體機制(如不同舞種專長的具體影響)并未能深入解析。此外,樣本量(14人)在fMRI研究中雖屬常規,但在試圖通過相關性分析揭示復雜的群體差異時顯得略顯單薄。
![]()
請打分
這篇剛剛登上Nature Communications的研究,是否實至名歸?我們邀請您作為“云審稿人”,一同品鑒。精讀全文后,歡迎在匿名投票中打分,并在評論區分享您的深度見解。
前沿交流|歡迎加入認知神經科學前沿交流群!
![]()
核心圖表、方法細節、統計結果與討論見原文及其拓展數據。
分享人:天天
審核:PsyBrain 腦心前沿編輯部
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.