PsyBrain 腦心前沿 | 公眾號 PSY-Brain_Frontier
一鍵關注,點亮星標 ??
不錯過每日前沿資訊
認知神經科學前沿文獻分享
![]()
基本信息:
Title:Top-down perceptual inference shaping the activity of early visual cortex
發表時間:2025.11.14
Journal:Nature Communications
影響因子:15.7
獲取原文:
添加小助手:PSY-Brain-Frontier即可獲取PDF版本
![]()
![]()
引言
在理解視覺系統時,我們習慣把信息處理看成“自下而上”(bottom-up):光刺激進入視網膜,沿著視通路層層上行,越到高級皮層越抽象。
過去十年,深度學習中的目標導向(goal-directed)判別模型正是沿著這種直覺前進:它們用監督學習去做分類任務,驚人地擬合了靈長類從V1到IT整條腹側通路的神經反應,并且能合成最能“點燃”某些神經元的圖像。
![]()
然而,這類純前饋模型有兩處與生物系統的核心差異:其一,它們需要外部標簽信號教導;其二,它們幾乎不需要自上而下(top-down)的回饋,而真實的大腦卻布滿了回返連接。尤其在“困難模式”(遮擋、噪聲、模糊)下,靈長類的反應呈現延遲和再入(recurrent)特征,暗示除了前饋之外還有更復雜的計算在介入。
這篇發表在Nature Communications的論文提出并訓練了一個分層深度生成模型——Top-Down Variational Autoencoder(TDVAE)來正面回答兩個問題:
1)如果不靠標簽、只靠自然圖像統計,系統能否學到與早期視覺(V1/V2)相匹配的表征?
2)當模型執行分層推斷(hierarchical inference)時,自上而下的“上下文先驗(contextual priors)”如何塑造低級特征層(V1)的平均反應與噪聲相關(noise correlations)?
作者的主張是:視覺并非只在頂層“認出是什么”(分類)才發生推斷,而是在每一層都在進行帶先驗的貝葉斯式整合。更高層(類V2)學到的紋理與上下文,作為先驗通過回饋影響低層(類V1):當圖像證據不充分或含混時,先驗會填補空白,乃至在卡尼薩(Kanizsa)這類錯覺刺激上在V1中“虛構”出一條并不存在的邊界。
文章不僅在平均放電上重現了多項經典生理學結果,還進一步解釋了刺激依賴的噪聲相關從何而來——它們正是高層上下文先驗在低層采樣中的投影。因此,這項工作把 “生成模型—分層推斷—上下文先驗” 的三角形閉環,完整落地到可與猴子數據逐圖逐量對比的細粒度水平,展示了為何大腦要廣泛使用自上而下。
更貼近生活的比喻:當你在薄霧中遠看一只動物,清晰的邊緣與花紋缺失,腦中“斑馬應當有條紋”的先驗會幫助把零碎線索組織成條紋;當你望見四個“吃掉角的小圓餅”,你會自動“看見”一只白色正方形——這就是上下文先驗在不足證據下的“補全”。作者把這種補全與再解釋,用一個端到端、無監督訓練的生成模型具象化了出來,并且讓它在多個“心理物理—電生理—模型”三方對照試驗中站住腳。
![]()
![]()
實驗設計
作者在自然圖像補丁上端到端無監督訓練TDVAE:生成部分對Z1-像素采用線性稀疏先驗以獲得Gabor樣基;對Z2-Z1采用多層非線性,以學習紋理等非線性統計;識別部分共享一條前饋路徑分別抵達Z1與Z2,并在Z1-INT節點將來自Z2的Top-down與圖像證據融合,輸出可采樣的后驗。
訓練完成后,作者不用任何對神經數據的擬合參數,直接把Z1/Z2的均值與采樣映射為V1/V2反應來做對照:一方面用合成紋理/相位打亂/濾波打亂等刺激考察Z2的紋理編碼與Z1的不變性/可分性;另一方面構造Kanizsa錯覺與輪廓補全范式,比較真實邊/錯覺邊/不相干對照的Z1反應時程與幅度,并通過“抽掉Z2刺激信息”“把Z2鉗制為零”等消融來驗證反饋來源;此外,作者用Z1的噪聲相關矩陣直接做紋理家族解碼,并檢驗其與信號相關(跨圖像均值相關)的一致性,以及在相位/濾波打亂后的下降,最后與猴V1/V2數據逐項對標。
![]()
Fig. 1 | Hierarchical inference in task-independent models.
![]()
核心發現
發現一|Z2學到“緊湊而強”的紋理表征,Z1接近機會水平,與V2/V1遙相呼應
訓練后,Z1形成了一個幾乎完備的Gabor字典,而Z2沒有明顯的一階線性結構,卻在二階/調諧上表現出對方向與波長的選擇性。關鍵在于可線性解碼的紋理家族信息:在Z2,紋理解碼準確率高達0.876±0.0001,且在多種層級結構變體中穩健;而在Z1,解碼接近機會水平(有15個家族,對應~0.067),與猴V1數據一致。進一步的t-SNE可視化顯示:Z2的響應在家族層面形成清晰簇團,而Z1則分散——這與猴V2與V1群體數據的模式幾乎一一對應(圖2e-f)。作者還對照了未訓練模型與經典前饋CORnet:未訓練模型Z2解碼接近0.082,遠遜于TDVAE;而CORnet在“Z2樣層”解碼可達0.977,在“Z1樣層”則仍接近機會。這說明:分層生成學習自然會在中層(類V2)形成低維而有力的紋理坐標軸,且這種軸是任務無關地自發涌現的;同時也表明即使判別模型能在高層形成可解碼的紋理軸,它們并不闡明上下文先驗如何回流影響低層。數據與文字詳見圖2d-f及相關段落。
![]()
Fig. 2 | Hierarchical representation in Z1 and Z2 learned by TDVAE.
發現二|自上而下先驗在V1層產生“錯覺邊界”,且明顯晚現并依賴Z2
在Kanizsa正方形范式中,作者將虛邊與單個Z1感受野精準對齊,比較“真實邊”“錯覺邊”“不相干元素”三種條件,并計算Z1的平均反應—線性響應的差異。結果表明:錯覺邊在Z1引發的反應幅度雖低于真實邊,但形態相近,而不相干條件被明顯抑制;更關鍵的是,把Z2的刺激信息移除(采樣其先驗)或把Z2鉗制為零,錯覺增益隨之消失或顯著減弱;而在淺層VAE(無Z2)或前饋目標模型中,幾乎看不到穩健的錯覺增益。這直接把錯覺反應的來源定位到來自Z2的上下文先驗。在時序上,作者用“前刺激/早期/晚期”的三階段采樣策略模擬實驗中常見的晚現現象,證實錯覺增益僅在晚期出現,與猴V1文獻一致。整體而言,是否存在并何時出現錯覺邊,成為區分“有無Top-down推斷”的標志。見圖4(反應—線性對比與消融)與圖5b(時序)。
![]()
Fig. 4 | Contribution of top-down computations to illusory contour responses.
![]()
Fig. 5 | Top-down influences shaping the representation in Z1.
![]()
![]()
Fig. 3 | Optical mapping of causal connectivity and its anatomical organization
發現三|“紋理家族特異”的噪聲相關在Z1出現,且與信號相關成對齊;打亂高階統計會降低特異性,并與猴V1吻合
作者把上下文先驗定義為Z2對Z1的分布性約束:當圖像上下文變化時,先驗也隨之變化,從而導致每幅圖像都有特定的神經元共激活模式。在模型中,Z1的協方差完全來自Z2引入的上行不確定性(識別后驗對Z1本身假設為無相關的Laplace),因此Z1的噪聲相關是Top-down的“指紋”。具體發現:① Z1的噪聲相關矩陣對不同圖像顯著不同,可被用來線性解碼紋理家族(Z1均值反而不如相關矩陣好);② 對同一對Z1神經元,其信號相關(跨圖像的均值相關)在不同紋理家族上呈家族特異,而噪聲相關與之成系統性依賴;③ 把紋理做相位打亂或濾波打亂(破壞高階統計)會顯著降低跨圖像的噪聲相關差異度,與猴V1報道一致。綜合這些證據,作者把長期困擾理解的“刺激依賴的噪聲相關”規范地解釋為:高層上下文先驗在低層采樣中的投影。見圖6及相應文字。
![]()
![]()
Fig. 6 | Contribution of top-down influences to response correlations in Z1.
發現四|Top-down讓“Z1也能讀出一點紋理”:移除Z2的刺激信息后,Z1的可解碼性顯著下降
雖然Z1主要編碼局部一階特征,但由于上下文先驗回流,在完整TDVAE里,Z1的多神經元均值對紋理家族仍有弱而顯著的可解碼性(平均準確率0.1943)。當作者把Z2改為不含刺激信息(僅采樣其先驗)時,這種可解碼性降至0.0986,幾乎回到機會附近;同樣,把紋理做相位打亂,Z1的可解碼性也隨之顯著下降,提示可解碼成分來自被Z2捕捉的高階紋理統計。時間維度上,這種“Z1中出現的高階痕跡”與錯覺、輪廓整合一樣,呈晚現。這一結果將“Z2是紋理核心所在”與“Z2的上下文會回寫Z1”連成閉環,提出一個重要視角:即使V1看似只處理“局部邊”,我們在多神經元維度上依然能讀取到高層先驗的痕跡。
![]()
結論
這是一篇把“生成模型 + 分層推斷 + 上下文先驗”落到與靈長類數據量化對表的里程碑式工作,既解釋了V2的紋理本質,也解釋了V1的錯覺與噪聲相關從何而來。它提示我們:大腦不是只在頂層做“是什么”的判別,而是在每層都做帶先驗的解釋—這正是回返連接存在的理由。
![]()
展望與應用
未來值得追問的方向:
1)更高層(V4/IT)先驗如何繼續塑造V1/V2?能否把物體、場景的超越紋理的統計也納入統一框架?
2)任務與注意如何與“感知先驗”在同一推斷圖中耦合?兩者共享通路的證據如何在時空上拆分?
3)再入/側向與Top-down在時間軸上的分工:遮擋、運動復雜場景下,哪類不確定性靠哪條路?
4)模型目前把Z1-像素視作近似線性,未來能否引入更真實的回路細節(層/列/細胞型)以解釋更多亞型反應?
![]()
請打分
這篇剛剛登上Nature Communications的研究,是否實至名歸?我們邀請您作為“云審稿人”,一同品鑒。精讀全文后,歡迎在匿名投票中打分,并在評論區分享您的深度見解。
前沿交流|歡迎加入認知神經科學前沿交流群!
![]()
核心圖表、方法細節、統計結果與討論見原文及其拓展數據。
分享人:BQ
審核:PsyBrain 腦心前沿編輯部
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.