網易首頁 > 網易號 > 正文申請入駐

Nat Commun：前額葉皮層通過“時間復用”解決價值學習中的“穩定性-靈活性困境”

2025-12-19 12:15:54　來源: PsyBrain腦心前沿

北京舉報

分享至

PsyBrain 腦心前沿 | 公眾號 PSY-Brain_Frontier

一鍵關注，點亮星標 ??

不錯過每日前沿資訊

認知神經科學前沿文獻分享

基本信息

Title:Prefrontal cortex temporally multiplexes slow and fast dynamics in value learning and memory

發表時間：2025.12.11

發表期刊:Nature Communications

影響因子：15.7

獲取原文：

添加小助手:PSY-Brain-Frontier即可獲取PDF版本

研究背景

在我們的日常生活中，"習慣難改"是一個普遍存在的現象。無論是戒煙時的復吸，還是在面對熟悉事物發生變化時的適應困難，都指向了一個核心的認知困境：大腦如何在維持長期記憶的穩定性（Stability）與適應環境變化的靈活性（Flexibility）之間取得平衡？

一方面，為了生存，我們需要快速學習新規則（例如，原本喜歡的餐廳突然變難吃了，需要立刻停止光顧）；另一方面，有用的價值記憶需要緩慢遺忘，以保留那些長期穩定的關聯（例如，父母的飯菜總是好吃的）。這種張力被稱為“穩定性與靈活性的困境”（stability vs. flexibility dilemma）。

現有的強化學習（RL）理論通常假設一個單一的過程來學習和更新價值。然而，這種單速率模型難以解釋為什么我們在經歷了一段時間的“反轉學習”后，往往會自發地恢復到最初的偏好，即自發恢復（Spontaneous Recovery）現象。此前的研究發現基底神經節中的不同區域（尾狀核頭部和尾部）分別負責快速和慢速學習，但在皮層層面，大腦究竟是如何整合這兩套截然不同的時間尺度，尤其是在同一個腦區內如何處理這種沖突，仍是一個未解之謎。本研究聚焦于腹外側前額葉皮層（vlPFC），通過一項設計精巧的獼猴價值反轉實驗，試圖揭示大腦解決這一困境的神經計算機制。

研究核心總結

本研究結合了計算建模、電生理記錄和行為實驗，揭示了腹外側前額葉皮層（vlPFC）通過時間多路復用（Temporal Multiplexing）機制，在單神經元水平上同時編碼了價值學習中的慢速（穩定）和快速（靈活）動態。

Fig. 1 | Value reversal paradigm, model predictions, and behavioral results.

行為學證據：雙速率模型優于單速率模型

研究團隊首先通過獼猴的價值反轉任務發現，動物在經歷價值反轉（好刺激變壞，壞刺激變好）并經過一段無反饋的“遺忘期”后，表現出了顯著的自發恢復現象，即重新偏向最初的高價值刺激。

通過對比單速率和雙速率強化學習模型，研究表明只有包含“快過程”（高學習率、高遺忘率）和“慢過程”（低學習率、低遺忘率）的雙速率模型（Two-rate Model）才能準確預測這一行為。快過程負責快速適應環境突變，而慢過程則維持長期的價值記憶。

Fig. 2 | Example neuron and average population response in value probes.

神經機制：vlPFC的時間多路復用

通過對vlPFC進行單細胞記錄，研究者發現這種“快慢雙流”并非由不同的神經元群體分別負責，而是由同一群神經元在不同時間窗口交替編碼實現的，這被稱為時間多路復用機制：

早期成分（刺激呈現后100-300ms）：編碼慢速過程。即使在價值反轉后，這部分神經活動仍頑固地保留了對初始價值的偏好（即最初的“好”刺激仍引起更強反應），體現了記憶的穩定性。
晚期成分（刺激呈現后300-600ms）：編碼快速過程。這部分活動能夠迅速跟隨價值反轉發生極性逆轉，反映了當前的最新價值，體現了學習的靈活性。

Fig. 3 | Value responses in individual neurons in early and late epochs across value probes.

隨著時間的推移（如反轉20分鐘后），代表快過程的晚期成分迅速衰退，而代表慢過程的早期成分依然保留。這完美地在神經層面解釋了為何會出現“自發恢復”：當快速適應的覆蓋層消退后，底層的長期記憶便再次顯現。此外，局部場電位（LFP）的高伽馬波段（High-gamma）功率也顯示出了完全一致的時序動態。

Fig. 4 | 2D projection of population responses using partial-PCA across value probes.

理論與臨床意義

該研究具有重要的理論貢獻：它證實了大腦通過在同一神經基質上疊加不同時間尺度的計算過程來解決“穩定性-靈活性”難題，而不是單純依賴解剖上的分離。對于理解成癮和復發行為，這一發現具有深刻的啟示：消退訓練（Extinction）往往只是通過“快過程”暫時抑制了行為，而并未擦除由“慢過程”編碼的長期價值記憶，這正是習慣難改和復吸的神經計算根源。vlPFC作為整合這兩類信息的關鍵樞紐，可能成為干預適應不良行為的重要靶點。

Fig. 5 | LFP response to good and bad objects across value probes and correlations with behavior.

Abstract

Balancing stability and flexibility is a fundamental challenge in value-based learning: how does the brain maintain long-term value memories while adapting to new environmental contingencies? To address this, we propose a reinforcement learning model composed of two distinct processes with fast and slow dynamics for updating and forgetting object values. Using a combined theoretical and experimental approach in male macaque monkeys, we validate a key behavioral prediction of this two-rate system—spontaneous recovery of prior value memories following value reversal. At the neural level, we show that single neurons in the ventrolateral prefrontal cortex (vlPFC) temporally multiplex these dynamics, with distinct firing components reflecting fast and slow learning processes. Together, these findings suggest that reward learning and memory are supported by a two-rate system that enables both flexibility and stability, and identify the vlPFC as a critical neural substrate for this mechanism.

前沿交流|歡迎加入認知神經科學前沿交流群！

核心圖表、方法細節、統計結果與討論見原文及其拓展數據。

分享人：飯哥

審核：PsyBrain 腦心前沿編輯部

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.