![]()
這項(xiàng)由巴斯克大學(xué)HiTZ中心與巴斯克認(rèn)知、大腦與語言中心聯(lián)合開展的突破性研究,發(fā)表于2026年的arXiv預(yù)印本平臺(tái)(論文編號(hào)arXiv:2602.18253v1),標(biāo)志著腦機(jī)接口領(lǐng)域的一個(gè)重要里程碑。有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。
腦機(jī)接口技術(shù)一直被認(rèn)為是連接人腦與計(jì)算機(jī)的橋梁,特別是在幫助失語癥患者恢復(fù)語言能力方面具有巨大潛力。然而,傳統(tǒng)方法面臨著一個(gè)根本性挑戰(zhàn):需要為每個(gè)患者收集數(shù)小時(shí)甚至數(shù)十小時(shí)的大腦信號(hào)訓(xùn)練數(shù)據(jù),這在臨床實(shí)踐中幾乎不可能實(shí)現(xiàn)。患者往往無法承受如此長(zhǎng)時(shí)間的數(shù)據(jù)收集過程,而醫(yī)療資源也難以支撐這樣的需求。
研究團(tuán)隊(duì)巧妙地將這個(gè)問題轉(zhuǎn)化為一個(gè)"知識(shí)遷移"的挑戰(zhàn),就像教一個(gè)已經(jīng)熟練掌握鋼琴演奏的人學(xué)習(xí)吉他一樣。他們首先用一名志愿者的50小時(shí)大腦信號(hào)數(shù)據(jù)訓(xùn)練了一個(gè)基于Conformer架構(gòu)的人工智能模型,這個(gè)模型專門用于識(shí)別大腦中的語音活動(dòng)模式。這個(gè)過程類似于讓AI系統(tǒng)深度學(xué)習(xí)人類大腦處理語音信息的基本規(guī)律。
接下來,研究團(tuán)隊(duì)將這個(gè)"預(yù)訓(xùn)練"的模型應(yīng)用到18名新參與者身上,每人僅需要5分鐘的大腦信號(hào)數(shù)據(jù)進(jìn)行個(gè)性化調(diào)整。更令人驚喜的是,這個(gè)系統(tǒng)不僅能夠識(shí)別人們聽到語音時(shí)的大腦活動(dòng),還能識(shí)別人們說話時(shí)的大腦信號(hào),實(shí)現(xiàn)了真正的"跨任務(wù)"解碼能力。
這項(xiàng)研究采用了腦磁圖技術(shù)來記錄大腦活動(dòng)。腦磁圖就像是給大腦裝上了一個(gè)極其敏感的"信號(hào)探測(cè)器",能夠?qū)崟r(shí)捕捉神經(jīng)元放電時(shí)產(chǎn)生的微弱磁場(chǎng)變化。研究團(tuán)隊(duì)使用了306個(gè)傳感器組成的探測(cè)陣列,以每秒250次的頻率記錄大腦信號(hào),確保不遺漏任何細(xì)微的活動(dòng)模式。
在預(yù)訓(xùn)練階段,研究人員讓一名英語母語的志愿者聽了50多個(gè)小時(shí)的有聲讀物,主要是《夏洛克·福爾摩斯》系列故事。在這個(gè)過程中,AI系統(tǒng)學(xué)會(huì)了識(shí)別大腦中"有聲音"和"安靜"狀態(tài)的區(qū)別。這個(gè)基礎(chǔ)模型就像一個(gè)經(jīng)驗(yàn)豐富的"大腦信號(hào)翻譯員",掌握了人類處理語音信息的基本模式。
隨后的測(cè)試階段更加有趣。18名西班牙語母語的參與者分別完成了三項(xiàng)不同的任務(wù):聆聽預(yù)先錄制的語音、回放自己的聲音錄音,以及大聲朗讀文字。每項(xiàng)任務(wù)僅持續(xù)約5分鐘,產(chǎn)生的大腦信號(hào)數(shù)據(jù)量相當(dāng)有限。然而,經(jīng)過預(yù)訓(xùn)練的AI系統(tǒng)在這些新數(shù)據(jù)上進(jìn)行快速調(diào)整后,展現(xiàn)出了令人印象深刻的識(shí)別能力。
實(shí)驗(yàn)結(jié)果顯示了遷移學(xué)習(xí)的顯著優(yōu)勢(shì)。在識(shí)別聽力任務(wù)方面,使用遷移學(xué)習(xí)的模型準(zhǔn)確率提升了3.7%,達(dá)到79.0%,F(xiàn)1分?jǐn)?shù)提高了2.6%,AUC分?jǐn)?shù)更是大幅提升了7.3%。這些改進(jìn)聽起來可能不太起眼,但在腦機(jī)接口領(lǐng)域,每一個(gè)百分點(diǎn)的提升都意味著巨大的技術(shù)進(jìn)步。特別值得注意的是,即使預(yù)訓(xùn)練模型完全基于聽力數(shù)據(jù),它在語音產(chǎn)生任務(wù)上同樣表現(xiàn)出了改進(jìn),準(zhǔn)確率、F1分?jǐn)?shù)和AUC分?jǐn)?shù)分別提高了0.7%、0.7%和1.1%。
更加引人注目的是跨任務(wù)解碼能力的實(shí)現(xiàn)。研究團(tuán)隊(duì)發(fā)現(xiàn),在一個(gè)任務(wù)上訓(xùn)練的模型能夠成功解碼另一個(gè)完全不同的任務(wù)。比如,一個(gè)專門學(xué)習(xí)識(shí)別"聽到語音"時(shí)大腦信號(hào)的模型,竟然能夠識(shí)別"說話"時(shí)的大腦活動(dòng),準(zhǔn)確率達(dá)到65.0%到73.4%之間。這個(gè)發(fā)現(xiàn)證實(shí)了一個(gè)重要的科學(xué)假設(shè):人類大腦在處理語音感知和語音產(chǎn)生時(shí),存在共同的神經(jīng)基礎(chǔ)。
跨任務(wù)遷移的效果呈現(xiàn)出有趣的方向性特征。感知任務(wù)之間的遷移相對(duì)容易,聽力任務(wù)和回放任務(wù)之間可以很好地相互遷移,準(zhǔn)確率都在72%以上。然而,從語音產(chǎn)生任務(wù)向感知任務(wù)的遷移稍顯困難,準(zhǔn)確率降到65-66%左右。這種不對(duì)稱性實(shí)際上符合神經(jīng)科學(xué)的基本原理:語音產(chǎn)生不僅涉及聽覺處理,還需要運(yùn)動(dòng)規(guī)劃、感覺反饋等額外的神經(jīng)機(jī)制,而感知任務(wù)則相對(duì)簡(jiǎn)單。
當(dāng)結(jié)合遷移學(xué)習(xí)技術(shù)后,跨任務(wù)解碼能力得到了進(jìn)一步提升。聽力與回放任務(wù)間的遷移效果最為顯著,準(zhǔn)確率提升了6.1%和6.3%。更重要的是,涉及語音產(chǎn)生的跨任務(wù)組合也獲得了3-5%的改進(jìn)。這些提升在統(tǒng)計(jì)學(xué)上都達(dá)到了顯著性水平,證明了方法的可靠性。
研究團(tuán)隊(duì)還深入分析了個(gè)體差異對(duì)遷移學(xué)習(xí)效果的影響。結(jié)果顯示,18名參與者中的大多數(shù)都從遷移學(xué)習(xí)中受益,但效果存在一定的個(gè)體差異。在感知任務(wù)中,15名參與者表現(xiàn)出改進(jìn),而在語音產(chǎn)生任務(wù)中,16名參與者獲得了提升。這種變異性提示我們,未來的腦機(jī)接口系統(tǒng)可能需要考慮個(gè)體化調(diào)整策略。
從技術(shù)角度來看,這項(xiàng)研究采用了多項(xiàng)創(chuàng)新性的方法改進(jìn)。研究團(tuán)隊(duì)引入了"滾動(dòng)增強(qiáng)"技術(shù),通過對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行時(shí)間維度的循環(huán)移位來增加數(shù)據(jù)多樣性,類似于通過不同角度觀察同一個(gè)物體來增強(qiáng)理解。同時(shí),他們還使用了"軟標(biāo)簽"技術(shù),不再簡(jiǎn)單地將每個(gè)時(shí)間窗口標(biāo)記為"語音"或"靜音",而是根據(jù)該窗口中語音所占的比例給出更細(xì)致的標(biāo)記。
實(shí)驗(yàn)設(shè)計(jì)的嚴(yán)謹(jǐn)性也值得稱道。研究團(tuán)隊(duì)使用了Wilcoxon符號(hào)秩檢驗(yàn)這一非參數(shù)統(tǒng)計(jì)方法來評(píng)估結(jié)果的顯著性,并采用Holm-Bonferroni方法進(jìn)行多重比較校正,確保統(tǒng)計(jì)結(jié)論的可靠性。此外,他們還進(jìn)行了基于排列的符號(hào)翻轉(zhuǎn)檢驗(yàn),通過10000次迭代來驗(yàn)證整體效果的統(tǒng)計(jì)顯著性。
這項(xiàng)研究的臨床意義不容小覷。傳統(tǒng)的腦機(jī)接口系統(tǒng)需要每個(gè)患者進(jìn)行數(shù)小時(shí)的個(gè)性化訓(xùn)練,這在實(shí)際應(yīng)用中往往不現(xiàn)實(shí)。而新方法僅需5分鐘的數(shù)據(jù)收集,就能實(shí)現(xiàn)可靠的語音檢測(cè)功能,這大大降低了技術(shù)應(yīng)用的門檻。特別是跨任務(wù)能力的實(shí)現(xiàn),意味著一個(gè)基于語音產(chǎn)生訓(xùn)練的系統(tǒng)也能理解患者的聽覺感知狀態(tài),這為開發(fā)更全面的語言康復(fù)系統(tǒng)提供了可能。
研究也存在一些局限性。當(dāng)前的系統(tǒng)僅能進(jìn)行語音檢測(cè),還無法識(shí)別具體的語音內(nèi)容或語義信息。此外,預(yù)訓(xùn)練和微調(diào)使用了不同的語言(英語和西班牙語),雖然證明了方法的跨語言適用性,但也可能限制了遷移效果的充分發(fā)揮。研究團(tuán)隊(duì)還指出,預(yù)訓(xùn)練數(shù)據(jù)來自單一個(gè)體,未來需要探索多個(gè)體預(yù)訓(xùn)練是否能進(jìn)一步改善泛化能力。
從更廣闊的科學(xué)視角來看,這項(xiàng)研究為神經(jīng)科學(xué)提供了新的證據(jù),證明了語音感知和語音產(chǎn)生在神經(jīng)層面確實(shí)存在共享的表征機(jī)制。這支持了當(dāng)代語音處理的"雙流模型"理論,該理論認(rèn)為大腦中存在腹側(cè)感知通路和背側(cè)感覺運(yùn)動(dòng)通路,它們相互協(xié)作完成語音處理任務(wù)。
技術(shù)實(shí)現(xiàn)方面,研究團(tuán)隊(duì)還公開了所有代碼、預(yù)處理腳本和模型配置,確保研究的可重現(xiàn)性。這種開放科學(xué)的做法不僅有助于同行驗(yàn)證結(jié)果,也為后續(xù)研究提供了寶貴的技術(shù)基礎(chǔ)。
說到底,這項(xiàng)研究代表了腦機(jī)接口技術(shù)從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用的重要一步。通過證明大規(guī)模預(yù)訓(xùn)練模型可以用極少的個(gè)體數(shù)據(jù)實(shí)現(xiàn)有效的語音解碼,研究團(tuán)隊(duì)為開發(fā)實(shí)用的語言康復(fù)系統(tǒng)鋪平了道路。雖然目前的技術(shù)還處于語音檢測(cè)階段,但其展現(xiàn)的跨任務(wù)泛化能力和數(shù)據(jù)效率優(yōu)勢(shì),預(yù)示著未來在詞匯識(shí)別、語義理解等更高級(jí)任務(wù)上的巨大潛力。
這種技術(shù)突破不僅為失語癥患者帶來了希望,也為神經(jīng)科學(xué)研究開辟了新的方向。通過更深入地理解大腦處理語言的機(jī)制,我們有望開發(fā)出更加智能、高效的腦機(jī)接口系統(tǒng),最終幫助更多需要語言康復(fù)的患者重新獲得與世界溝通的能力。
Q&A
Q1:腦磁圖技術(shù)是如何記錄大腦語音活動(dòng)的?
A:腦磁圖技術(shù)就像給大腦裝上了極其敏感的"信號(hào)探測(cè)器",能夠?qū)崟r(shí)捕捉神經(jīng)元放電時(shí)產(chǎn)生的微弱磁場(chǎng)變化。研究使用306個(gè)傳感器組成的探測(cè)陣列,以每秒250次的頻率記錄大腦信號(hào),確保不遺漏任何細(xì)微的活動(dòng)模式。當(dāng)大腦處理語音信息時(shí),相關(guān)神經(jīng)元會(huì)產(chǎn)生特定的放電模式,這些模式在磁場(chǎng)中留下獨(dú)特的"指紋",AI系統(tǒng)通過學(xué)習(xí)這些指紋來識(shí)別語音活動(dòng)狀態(tài)。
Q2:為什么用5分鐘數(shù)據(jù)就能訓(xùn)練出有效的語音識(shí)別系統(tǒng)?
A:關(guān)鍵在于"遷移學(xué)習(xí)"策略,就像教一個(gè)已經(jīng)熟練掌握鋼琴的人學(xué)吉他一樣。研究團(tuán)隊(duì)首先用50小時(shí)的大腦信號(hào)數(shù)據(jù)訓(xùn)練了一個(gè)"預(yù)訓(xùn)練"模型,讓它深度學(xué)習(xí)人類大腦處理語音的基本規(guī)律。然后將這個(gè)經(jīng)驗(yàn)豐富的"大腦信號(hào)翻譯員"應(yīng)用到新參與者身上,只需5分鐘的個(gè)性化調(diào)整就能適應(yīng)新的大腦信號(hào)特征。這種方法避免了從零開始訓(xùn)練的低效率問題。
Q3:跨任務(wù)解碼能力意味著什么實(shí)際應(yīng)用前景?
A:跨任務(wù)解碼能力證明了大腦在處理語音感知和語音產(chǎn)生時(shí)存在共同的神經(jīng)基礎(chǔ)。這意味著一個(gè)基于語音產(chǎn)生訓(xùn)練的腦機(jī)接口系統(tǒng)也能理解患者的聽覺感知狀態(tài),為開發(fā)更全面的語言康復(fù)系統(tǒng)提供了可能。對(duì)于失語癥患者來說,醫(yī)生可以通過監(jiān)測(cè)他們的聽覺理解能力來評(píng)估康復(fù)進(jìn)展,同時(shí)系統(tǒng)也能幫助患者重新學(xué)習(xí)語音表達(dá),實(shí)現(xiàn)"聽說并重"的綜合治療效果。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.