網易首頁 > 網易號 > 正文申請入駐

北師大最新Neuron：人腦如何從稀疏經驗中高效學習？海馬尖波漣漪揭示關鍵機制

2026-04-13 08:12:57　來源: PsyBrain腦心前沿

北京舉報

分享至

認知神經科學前沿文獻分享

基本信息

Title:Human hippocampal ripples prioritize model-based learning

發表時間:2026-4-9

發表期刊:Neuron

影響因子:15.0

獲取原文:

1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本

研究背景

人類大腦有一種驚人的能力：能從極其稀疏的經驗中高效學習。想象你偶然在一條偏僻的山谷里發現了一座金礦，你不僅會記住剛剛走過的那條路，還會立刻意識到，其他那些你從未走過、但同樣通向這個山谷的路線也變得極具價值。

在強化學習領域，這種能力被稱為“基于模型的學習”（model-based learning）。大腦利用對環境的內部模型，將直接獲得的局部經驗，推斷并泛化到未曾經歷的非局部選項上。然而，現實世界極其復雜，如果大腦要在每次獲得獎勵后更新所有未經歷的路線，計算量將是災難性的。因此，強化學習理論提出大腦必須進行“優先級排序”，優先更新那些最有用、最迫切的非局部經驗。

那么，大腦究竟是如何在神經層面實現這種優先級排序的？

嚙齒類動物研究表明，海馬體在組織經驗重放中起著關鍵作用，尤其是伴隨出現的一種短暫的高頻腦電活動：尖波漣漪（sharp-wave ripples）。同時，人類的功能磁共振成像（fMRI）研究也發現，前額葉皮層在表征任務結構和評估備選項時不可或缺。但是，由于fMRI的時間分辨率限制，我們一直不清楚海馬尖波漣漪在人類基于模型的學習中具體扮演什么角色，以及它如何與前額葉皮層在毫秒級別上協同工作來完成復雜的信用分配。

為了回答這個問題，研究團隊招募了34名植入顱內深度電極（iEEG）的癲癇患者，讓他們完成一項精心設計的強化學習任務，以此直接觀察大腦在獲得獎勵后，是如何將價值更新傳播到未走過的路線上，并揭示其背后的跨腦區協調機制。

研究核心總結

這項研究巧妙地設計了一個“三臂老虎機”任務。每條機械臂固定連接兩條路線，而每條路線最終通向兩個可能產生獎勵的終點之一。這種結構使得研究者能夠將“局部學習”（更新剛走過的路線）與“非局部學習”（更新通向同一終點的其他未走路線）分離開來。

一、行為學證據：人類會根據“優先級”更新未歷經驗

研究首先在行為層面上證實了非局部學習的存在。當受試者在某個終點獲得獎勵后，他們在下一回合不僅更傾向于選擇剛走過的路線，也更傾向于選擇那些同樣通向該終點但剛才沒走過的路線。

然而，非局部學習的效率低于局部學習，存在一個“效率鴻溝”。計算模型分析表明，受試者并非盲目地更新所有未走過的路線，而是根據“優先級”來分配學習資源。這里的優先級由“需求”（這條路線出現的頻率有多高）和“收益”（預測誤差有多大）共同決定。模型擬合結果顯示，受試者對高優先級的非局部路線具有顯著更高的學習率。

Fig 1. 實驗設計與行為學表現。受試者需要利用學習到的任務結構，將直接獲得的獎勵價值推導并更新到未曾走過的其他路線上。

Fig 2. 行為學模型表明，受試者對高優先級的非局部路線具有更高的學習率，且結構利用能力越差的受試者，局部與非局部學習的效率鴻溝越大。

二、海馬尖波漣漪不僅反映獎勵預測誤差，更編碼非局部更新的優先級

在明確了行為模式后，研究者將目光轉向了神經信號。顱內腦電數據顯示，在受試者獲得獎勵后的2.5秒內，海馬體同時編碼了獎勵預測誤差和非局部路線的優先級。

更關鍵的發現隱藏在海馬尖波漣漪中。研究者發現，在獲得獎勵后的420到740毫秒這個特定時間窗內，海馬尖波漣漪的發生率不僅與預測誤差相關，更與優先級緊密掛鉤。特別值得注意的是，漣漪的持續時間（duration）特異性地反映了優先級信息：當非局部路線的優先級較高時，長時程漣漪的持續時間會顯著增加，而短時程漣漪則沒有這種變化。這意味著，海馬尖波漣漪不僅僅是在宣告“有獎勵發生”，更是在計算“哪些未經歷的路線最值得更新”。

Fig 3. 顱內腦電記錄顯示，外側額極皮層（LFPC）和海馬在基于模型的決策與獎勵處理中發揮核心作用。

Fig 4. 獲得獎勵后，海馬尖波漣漪（尤其是長時程漣漪）顯著編碼了非局部路線的更新優先級。

三、漣漪發生期間，大腦皮層選擇性地“重放”高優先級路線

如果海馬尖波漣漪確實在指導優先級的分配，那么大腦皮層中應該能觀察到相應經驗的重現。研究者利用獨立數據訓練了針對不同路線圖像的神經解碼器，并在主任務中檢測這些路線的自發重現（reactivation）。

結果證實了這一猜想。在獎勵接收階段，大腦皮層對高優先級非局部路線的重現強度顯著高于低優先級路線。更重要的是，這種重現強度的分化極其依賴于海馬尖波漣漪的時間窗口。在漣漪發生前，高低優先級路線的重現沒有差異；而恰恰是在漣漪發生的瞬間（前后100毫秒內），高優先級路線的皮層重現被顯著增強。這表明海馬尖波漣漪開啟了一個短暫的時間窗口，引導皮層選擇性地重放最有價值的替代方案。

Fig 5. 在海馬尖波漣漪發生的窗口期，大腦皮層對高優先級非局部路線的神經重現顯著增強。

四、外側額極皮層與海馬的精準同步驅動了非局部學習

基于模型的學習不僅需要海馬的重放，還需要準確調用內部的任務結構。研究發現，位于前額葉最高層級的外側額極皮層（LFPC）在這一過程中扮演了關鍵角色。

在獎勵后的漣漪窗口期，LFPC的活動顯著增強，并且專門編碼了優先級信息。有趣的是，如果脫離了海馬尖波漣漪的同步，LFPC就不再編碼優先級。此外，受試者在漣漪期間LFPC的激活越強，他們在行為上對任務結構的利用就越準確。

為了驗證這種神經同步是否真的影響了學習，研究者構建了一個混合學習模型。結果顯示，只有當LFPC活動與海馬尖波漣漪精準對齊時，才會特異性地提高非局部學習的學習率。相比之下，腹內側前額葉（VMPFC）和外側眶額皮層（LOFC）在漣漪期間只編碼預測誤差，不編碼優先級。這種雙重分離表明，海馬與LFPC的協同是實現復雜模型學習的專屬機制。

Fig 6. 只有當LFPC活動與海馬尖波漣漪精準對齊時，才會特異性地促進基于模型的非局部價值學習。

研究意義

這項研究為我們理解人類如何從稀疏經驗中學習提供了細胞尺度的機制解釋。它不僅證實了海馬尖波漣漪在人類高級認知功能中的核心地位，還揭示了漣漪的異質性：長時程漣漪在編碼復雜優先級信息時承擔了更重要的計算任務。

在理論層面上，該研究修正了我們對前額葉功能的傳統認知。它表明，外側額極皮層（LFPC）參與基于模型的價值更新，并不是孤立進行的，而是必須在海馬尖波漣漪開啟的特定時間窗口內，通過精準的跨腦區節律同步來實現。這種“海馬-前額葉”的動態耦合，構成了大腦進行高效信用分配的神經基礎。

同時，這項工作也明確了其研究邊界。由于任務中多條路線確定性地指向同一終點，研究尚無法完全剝離純粹基于模型的預測誤差與初級獎勵反應。此外，受限于人類宏觀電極的空間分辨率，未來仍需要借助更高密度的記錄手段或因果調控技術，進一步探究這些節律同步背后的微觀環路基礎。

分享人：飯鴿兒

審核：PsyBrain 腦心前沿編輯部

你好，這里是「PsyBrain 腦心前沿」

專注追蹤全球認知神經科學的最尖端突破

視野直擊 Nature, Science, Cell 正刊及核心子刊與頂級大刊

每日速遞「深度解讀」與「前沿快訊」

科研是一場探索未知的長跑，但你無需獨行。歡迎加入PsyBrain 學術社群，和一群懂你的同行，共同丈量腦與心智的無垠前沿。

點擊卡片進群，歡迎你的到來

一鍵關注，點亮星標 ? 前沿不走丟！

一鍵分享，讓更多人了解前沿

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.