PsyBrain 腦心前沿 | 公眾號 PSY-Brain_Frontier
一鍵關注,點亮星標 ??
不錯過每日前沿資訊
認知神經科學前沿文獻分享
![]()
基本信息
Title:Towards decoding individual words from non-invasive brain recordings
發表時間:2025.11.26
發表期刊:Nature Communications
影響因子:15.7
獲取原文:
添加小助手:PSY-Brain-Frontier即可獲取PDF版本
![]()
![]()
![]()
研究背景
“讀心術”曾是科幻小說中遙不可及的幻想,而今,腦機接口(BCI)技術正一步步將這一幻想拉入現實。近年來,基于侵入性電極的研究在語言解碼領域取得了令人矚目的突破,能夠高精度地將大腦運動皮層的神經活動轉化為語音或文本 。然而,這種“開顱植入”的方式伴隨著巨大的手術風險和設備維護難題,極大限制了其在普通人群中的推廣應用 。
反觀非侵入性技術,如腦電圖(EEG)和腦磁圖(MEG),雖然安全便捷,卻長期受困于低信噪比、低空間分辨率等技術瓶頸 。傳統的非侵入性BCI(如P300拼寫器)往往依賴于緩慢的視覺注意任務,難以實現自然語言的實時流暢交流 。
雖然近期有研究嘗試利用功能磁共振(fMRI)結合大語言模型進行語義重建,但fMRI的時間分辨率過低(秒級),難以捕捉毫秒級的單詞加工過程 。因此,能否利用具有高時間分辨率的非侵入性手段(EEG/MEG),在自然語言流中精準解碼出“單個單詞”,一直是神經科學與人工智能交叉領域的重大挑戰。
![]()
研究核心總結
本研究介紹了一種新型深度學習流程(Deep Learning Pipeline),旨在解決從非侵入性M/EEG信號中解碼自然語言個體詞匯的開放性挑戰,并在空前大規模的數據集上展示了狀態最優(SOTA)性能 。
![]()
Fig. 1 | Approach.
創新架構與大規模驗證
研究團隊構建的深度學習流程結合了針對 M/EEG 信號的 BrainModule CNN 和用于處理上下文信息的句級Transformer架構。這種混合架構通過對比學習目標進行訓練,旨在將M/EEG活動窗口直接映射到預訓練語言模型提取的語義詞嵌入空間。相比僅使用BrainModule,集成Transformer后,平均性能提升了約50%,這一顯著提升證明了在詞級解碼任務中,利用句子上下文信息的重要性。
![]()
Fig. 4 | Examples of top-10 predictions for two MEG datasets.
該工作的一大核心貢獻在于其前所未有的驗證規模。研究者整合了九個M/EEG研究,構建了跨設備、跨任務和跨語言(英語、荷蘭語、法語)的大規模整合數據集,覆蓋723名參與者和超過500萬個詞匯的記錄。最終,該管道實現了高達37%的平衡Top-10準確率(基于250詞檢索集),顯著超越了線性模型和現有深度學習基線,并在所有受試者中均實現了顯著高于機會水平的解碼性能。
![]()
Fig. 2 | Decoding performance across model architectures and datasets.
泛化能力與多模態表征
該模型展現出對訓練集當中未出現詞匯的零樣本解碼能力,準確率顯著高于隨機水平。這一關鍵發現證實了模型學習到的映射關系具有強大的語義泛化性,能夠捕捉 M/EEG 信號與抽象語義特征之間的內在聯系,而非簡單地記憶特定的神經活動模式。
![]()
Fig. 5 | Impact of sublexical and syntactic features on decoding.
對解碼錯誤的定量分析揭示了神經編碼的復雜性:解碼器不僅依賴語義,還顯著地捕捉了非語義特征,如詞匯的詞性和詞長。數據顯示,預測失敗的詞匯與真實詞匯匹配這些特征的比例,均顯著高于隨機水平。特別地,在閱讀任務中,解碼器對低級視覺感知特征(如詞長)的依賴性更高,而在聽力任務中,則更依賴句法特征(如詞性)。這一結果揭示了M/EEG信號中包含了一個多維度的表征,同時編碼了詞匯的語義、句法和感知特征。
![]()
Fig. 6 | Impact of various word properties on decoding performance.
實驗范式對性能的量化洞察
研究通過對九個數據集的對比分析,提供了關于實驗架構對解碼性能影響的量化洞察:
設備效應:腦磁圖(MEG)的解碼性能顯著優于腦電圖(EEG),統計顯著性極高。這一結果主要歸因于MEG天然優越的信噪比,印證了非侵入性語言解碼的性能瓶頸主要受限于信號質量。
任務效應:閱讀任務(特別是RSVP快速呈現范式)的解碼性能顯著優于聽力任務,統計差異顯著。這暗示了視覺呈現中低級特征(如詞長)的易于提取性,以及RSVP范式在時間上對單個詞匯神經活動的有效隔離。
縮放律與數據策略:解碼準確率隨著訓練數據總量呈近似對數線性增長,顯示出該技術具有強大的可擴展性。同時,研究發現性能更傾向于從個體深度數據集(Deep datasets,即每位受試者記錄時長久)中獲益,而非廣譜數據集(Broad datasets,即大量受試者短時記錄),這為未來BCI數據采集的設計提供了重要的指導方針。
![]()
Fig. 3 | Scaling laws for decoding performance.
![]()
Abstract
While deep learning has enabled the decoding of language from intracranial brain recordings, achieving this with non-invasive recordings remains an open challenge. We introduce a deep learning pipeline to decode individual words from electro- (EEG) and magneto-encephalography (MEG) signals. We evaluate our approach on seven public datasets and two datasets which we collect ourselves, amounting to a total of 723 participants reading or listening to five million words in three languages. Our model outperforms existing methods consistently across participants, devices, languages, and tasks, and can decode words absent from the training set. Our analyses highlight the importance of the recording device and experimental protocol: MEG and reading are easier to decode than EEG and listening, and decoding performance consistently increases with the amount of data used for training and for averaging during testing. Overall, our findings delineate the path and remaining challenges towards building non-invasive brain decoders for natural language.
前沿交流|歡迎加入認知神經科學前沿交流群!
![]()
核心圖表、方法細節、統計結果與討論見原文及其拓展數據。
分享人:飯哥
審核:PsyBrain 腦心前沿編輯部
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.