網易首頁 > 網易號 > 正文申請入駐

Nature Neuroscience | 神經元如何區分獎勵與動作信號

2026-04-04 12:12:15　來源: PsyBrain腦心前沿

北京舉報

分享至

認知神經科學前沿文獻分享

基本信息

Title:Acetylcholine demixes heterogeneous dopamine signals for learning and moving

發表時間:2026.3.25

發表期刊:Nature Neuroscience

獲取原文:

1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本

研究背景

多巴胺（dopamine, DA）常被放在強化學習框架里理解，尤其與獎勵預測誤差（reward prediction error, RPE）有關；但在背側紋狀體相關研究中，它也經常出現在動作啟動、定向和運動活力（movement vigor）變化之前。對背內側紋狀體（dorsomedial striatum, DMS）這類DA主要作用的下游區域來說，真正接收到的往往不是單一功能信號，而是把學習相關和運動相關成分混在一起的瞬時輸入。

這篇論文要回答的問題是：DMS局部回路如何區分這些異質DA信號。作者重點檢驗乙酰膽堿（acetylcholine, ACh）是否會通過與DA的瞬時時序關系，改變DA更偏向哪一類功能。正文提出的核心假設是，ACh的動態可能門控DA對紋狀體神經元的作用，但這里的證據重點是行為中的時序關聯、行為預測和放電更新，而不是直接的因果操控證明。

實驗設計與方法邏輯

作者讓大鼠執行一個自定步調的 temporal wagering task。每個試次里，動物先啟動試次，聽到表示獎勵大小的聲音線索；隨后側邊獎勵口被指示，再經歷一段不可預測的等待延遲，動物可以繼續等待取獎，也可以中途放棄并重新開始。這個任務的重要設計點，是把獎勵相關線索與對側定向運動事件在時間上盡量分開，便于比較同一DMS位點在不同事件上的遞質動態（Fig. 1）。

在此基礎上，作者用光纖光度法（fiber photometry）記錄DMS中的DA和ACh釋放，先看兩者在不同任務事件上的基本模式：哪些時點更像RPE相關事件，哪些時點更像對側定向運動事件（Fig. 2）。隨后，文章把重點轉向ACh與DA的相位關系（phase relationship）：在報價線索處，DA是否稍滯后于ACh dip；在獎勵線索處，DA是否反而早于ACh dip；這些不同相位關系，是否分別對應后續行為更新或不更新（Fig. 3, Fig. 4）。

最后，作者在另一組動物的DMS做Neuropixels記錄，用行為代理指標去檢驗：與學習相關的DA事件，是否伴隨隨后試次中任務誘發放電率的持續變化；而運動相關DA事件，是否更接近對當前動作活力的預測，而不表現出類似的持續放電更新（Fig. 5, Fig. 6）。需要注意的是，論文沒有直接操控DA-ACh精確相位，因此“門控”更適合表述為得到較強支持的模型，而非最終因果定論。

核心發現

發現一：DMS里的DA并不是單一信號，ACh在學習事件和運動事件上呈現不同配套動態

作者首先顯示，DMS中的DA在不同任務時點復用了不同功能成分。報價線索處，DA隨獎勵大小變化；獎勵線索處，DA又隨等待時長變化，符合文中對RPE樣信號的操作性定義。與此同時，在獎勵口亮起和opt-out后回到中口這類會引發對側定向的時點，DA對對側運動更敏感；對應地，ACh在前一類事件上更常表現為dip，在后一類事件上則更常表現為burst。

這說明，同一DMS記錄區域里，學習相關與運動相關DA信號是混合存在的，而ACh動態在這兩類情境中并不相同，為后續“如何區分功能”提供了線索。

Fig. 2 中，作者把DA和ACh對不同任務事件的時間鎖定響應并列展示：報價線索和獎勵線索更接近RPE樣事件，而獎勵口亮起、opt-out后回中更接近對側定向運動事件；這張圖也對應了“發現一”。

發現二：當DA稍滯后于ACh dip時，它更關聯后續學習更新；當DA先于ACh dip時，正文沒有觀察到明確的學習關系

在報價線索處，DA相對ACh dip大約滯后約100 ms。這個時點上的DA幅度能預測下一試次啟動時間的變化，而且基于獎勵大小調制RPE的模型可以解釋大鼠跨試次的啟動行為變化。相應地，作者還看到，與這一行為代理RPE相關的DMS任務誘發放電率變化，主要出現在報價線索附近，并且可持續到后續試次，構成與體內可塑性（in vivo plasticity）一致的證據鏈。

但在獎勵線索處，DA峰值反而先于ACh dip。作者沒有觀察到它與下一試次啟動時間變化的關系；進一步考察等待多久才放棄、延遲期探頭概率以及首次探頭潛伏期，也沒有得到清楚的后續行為更新證據。正文在這里的表述是“未發現可觀察到的關系”，而不是否定該時點DA存在任何學習作用。

Fig. 3 把兩個關鍵時間點區分開來：報價線索時DA落在ACh dip之后，并與下一試次啟動變化相關；獎勵線索時DA領先ACh dip，且不對應作者測到的啟動更新。Fig. 4 繼續檢驗等待相關行為，也沒有看到清楚的后續更新；Fig. 5 則顯示報價線索附近更存在持續到后續試次的放電率變化，這幾張圖共同支撐了“發現二”。

發現三：與ACh burst同步的DA更貼近對側定向運動活力，而不是學習樣的持續更新

在獎勵口亮起和opt-out這兩類對側定向事件上，DA信號峰值都先于頭部速度峰值，時間上大約領先百毫秒量級；而且DA信號更強的試次，往往對應更快的反應。作者還指出，這里的運動快慢以及對應DA信號，并不呈現簡單的“獎勵越大越快、DA越強”的關系，因此不太像單純價值編碼。

與此同時，正文沒有看到這類運動相關DA像報價線索處那樣，能普遍預測后續試次中的持續放電更新；但DMS群體放電可以解碼快慢反應。更穩妥的理解是，這部分DA更接近對即將發生的對側定向運動活力的預測，而不是跨試次學習更新的主要窗口。

Fig. 6 中，作者把運動相關事件上的DA時間過程、頭部速度和快慢反應分層結果放在一起，顯示DA既在時間上先于動作速度，也與定向反應快慢有關；這張圖也對應了“發現三”。

總結

這項研究支持一種更細的讀法：在大鼠DMS里，DA的功能不能只看幅度，還要看它與ACh的瞬時時序。ACh dip后稍滯后的DA，更關聯學習更新及隨后試次的放電變化；與ACh burst同步的DA，則更貼近對側定向運動活力。邊界是，論文尚未直接做DA-ACh相位的因果操控。

分享人：BQ

審核：PsyBrain 腦心前沿編輯部

你好，這里是「PsyBrain 腦心前沿」

專注追蹤全球認知神經科學的最尖端突破

視野直擊 Nature, Science, Cell 正刊及核心子刊與頂級大刊

每日速遞「深度解讀」與「前沿快訊」

科研是一場探索未知的長跑，但你無需獨行。歡迎加入PsyBrain 學術社群，和一群懂你的同行，共同丈量腦與心智的無垠前沿。

點擊卡片進群，歡迎你的到來

一鍵關注，點亮星標 ? 前沿不走丟！

一鍵分享，讓更多人了解前沿

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.