網易首頁 > 網易號 > 正文申請入駐

Nat Neurosci?|?當神經元“自己選圖”：靈長類視覺系統(tǒng)如何在紋理與物體之間動態(tài)尋找最優(yōu)表征

2026-04-07 08:48:13　來源: BioArt

上海舉報

分享至

視覺神經元究竟 “ 喜歡 ” 什么樣的圖像？

這個問題看似簡單，卻困擾了視覺神經科學幾十年。對于初級視覺皮層（ V1 ）的神經元，我們已經知道它們偏好邊緣、方向、空間頻率等較為簡單的特征；但越往高級視覺區(qū)域走，情況就越復雜。很多神經元會同時對語義上毫不相關的圖像產生強烈反應：一只蜈蚣、一輛卡車、一座橋，可能都能激活同一個神經元。它們背后到底在編碼什么？是完整的 “ 物體類別 ” ，還是某些更隱蔽、更局部的關鍵視覺特征？

近日，哈佛大學Kempner研究所王彬旭研究員與她的博士導師、哈佛大學醫(yī)學院Carlos R. Ponce（此前在華盛頓大學醫(yī)學院）在Nature Neuroscience上發(fā)表了題為Neuronal tuning aligns dynamically with object and texture manifolds across the visual hierarchy的研究論文，提出了一種新的研究思路：不再由人來猜神經元喜歡什么圖，而是讓神經元自己 “ 引導 ” 圖像生成。

研究團隊利用兩類深度生成模型 —— 一種更偏向生成紋理化、抽象化圖像，另一種更偏向生成逼真、物體中心化圖像 —— 構建了兩個不同的 “ 視覺空間 ” 。隨后，在清醒恒河猴的 V1 、 V4 和 PIT （后下顳皮層）中，研究者記錄神經元放電，并讓神經元的反應直接反饋給生成模型，驅動圖像一步步進化，尋找最能激活自己的刺激。

結果顯示：沿著靈長類腹側視覺通路向前，神經元與 “ 紋理空間 ” 的對齊逐漸下降，而與 “ 物體空間 ” 的對齊逐漸增強；但即使在高級區(qū)域 PIT ，許多神經元也并不是只偏好完整物體，而是仍然能夠被兩類空間中共享的局部視覺母題所激活。更有意思的是，這種對齊并非靜態(tài)的： PIT 神經元在反應早期更像是在響應紋理線索，而在后期則更明顯地轉向物體相關表征。

這項工作不僅為理解視覺系統(tǒng)層級組織提供了新的證據，也展示了生成模型如何成為研究大腦表征的“實驗接口”。

一、讓神經元來 “ 駕馭 ” 生成模型

過去，神經科學家通常通過兩類方式研究視覺神經元：

一類是用人工設計的刺激，比如條紋、邊緣、方向；

另一類是用自然圖像庫，看神經元對什么圖像反應更強。

但這兩種方法都有局限。前者過于依賴研究者預設的假說，后者雖然更自然，卻很難系統(tǒng)覆蓋高維圖像空間。尤其對于高級視覺皮層中的神經元，它們偏好的特征可能既不是簡單幾何形狀，也不是某個明確語義類別，而是隱藏在復雜圖像統(tǒng)計之中的局部組合特征。

為了解決這個問題，研究團隊引入了閉環(huán)生成優(yōu)化（ closed-loop optimization ）范式。簡單來說，就是把神經元的放電當作 “ 評分器 ” ，讓生成模型不斷調整圖像，朝著更能激活該神經元的方向搜索。

這項研究使用了兩種圖像生成器：

1. DeePSim ：紋理生成空間。它更擅長產生豐富、連續(xù)、可塑性高的紋理樣圖像，雖然看起來往往不夠 “ 像照片 ” ，卻可以更自由地覆蓋各種自然圖像特征。

2. BigGAN ：物體生成空間。它以 ImageNet 為基礎訓練，更容易生成逼真、具有明確物體結構的圖像，但相對而言表達更受限，更偏向 “ 對象中心 ” 的自然圖像先驗。

研究者讓同一個神經元同時驅動這兩套生成過程：一邊在 “ 紋理空間 ” 里進化，一邊在 “ 物體空間 ” 里進化。通過比較兩條進化軌跡的成功率、收斂速度、最終激活強度以及時間動態(tài)，就可以判斷該神經元的調諧更 “ 對齊 ” 哪一種視覺空間。

二、看起來不同，但可能在局部 “ 說著同一種視覺語言 ”

實驗中，一個非常有趣的現象是：同一個神經元引導 DeePSim 和 BigGAN 優(yōu)化出來的圖像，往往整體長得很不一樣，但局部卻包含相似的關鍵結構。

比如，一張 BigGAN 優(yōu)化圖像可能看起來像一只站在草地上的鳥，而同一神經元在 DeePSim 空間中優(yōu)化出的圖像則更像一片抽象紋理拼貼；但仔細看，會發(fā)現它們都共享某種局部彎曲邊緣、顏色組合，或者某個特定位置上的高對比結構。也就是說，這個神經元也許并不是在編碼 “ 鳥 ” 這個整體概念，而是在編碼某種可以嵌入不同全局場景中的局部視覺母題。

為了驗證這一點，作者進一步構建了空間歸因分析，定位每張優(yōu)化圖中哪些局部區(qū)域最能解釋神經元放電變化。結果發(fā)現：來自同一神經元的 DeePSim 與 BigGAN 圖像，在歸因區(qū)域上比不同神經元之間更相似。而且，這種跨生成器圖像之間的相似性，還和神經元反應時間曲線（ PSTH ）的相似程度相關 —— 圖像越共享局部特征，神經元對它們的時間響應模式也越相近。

這說明，許多視覺神經元并不是簡單地 “ 認物體 ” 或 “ 認紋理 ” ，而更可能是在多個圖像空間中抽取可重組、可遷移的局部結構單元。這種結果支持了一種更具組合性的視覺編碼觀點：神經元偏好的不是完整模板，而是可以在不同圖像中重復出現的局部關鍵特征。

三、從 V1 到 PIT ：神經元與 “ 紋理空間 ” 和 “ 物體空間 ” 的對齊在變化

這項研究最核心的發(fā)現之一，是沿著視覺層級，神經元與不同生成空間的 “ 對齊關系 ” 發(fā)生了系統(tǒng)性變化。

作者把這種對齊理解為一種 “ 爬山便利度 ” ：如果某個神經元在某一生成空間中的調諧函數更平滑、更容易被優(yōu)化器找到高點，那么就說明它與這個空間更對齊。

研究中主要用了三個指標來刻畫這種對齊： 1. 優(yōu)化成功率。 2. 起點與終點激活強度。 3. 收斂速度。

結果非常清楚：在 V1 和 V4 神經元整體上更容易被 DeePSim 的紋理空間優(yōu)化成功，最終激活也更高，收斂更快。這說明在這些較早和中間的視覺區(qū)域中，紋理樣、局部統(tǒng)計樣的視覺空間仍然更貼近神經元的調諧結構。

在 PIT 情況發(fā)生了變化。 BigGAN 的成功率明顯提升，最終優(yōu)化后的激活水平與 DeePSim 相當，甚至在部分分析中表現得更快。也就是說，到了更高級的視覺區(qū)域，神經元已經能夠很好地 “ 嵌入 ” 一個更偏向物體結構的生成空間中。

但是： PIT 并沒有徹底拋棄紋理空間。許多 PIT 神經元同樣能夠在 DeePSim 中被有效優(yōu)化。這意味著高級視覺表征并不是從 “ 紋理 ” 切換成 “ 物體 ” 的單向替代，而更像是在保留局部特征編碼能力的同時，逐步獲得對更復雜物體變量的可逆映射能力。

四、同一個 PIT 神經元，早期更像 “ 看紋理 ” ，晚期更像 “ 看物體 ”

如果說前面的結果揭示了不同腦區(qū)對圖像空間的偏好差異，那么這項工作的另一大亮點，是把這種比較推進到了神經動力學層面。

大多數人工視覺模型對一張靜態(tài)圖像只輸出一個固定表征，但真實神經元不是這樣。它們對同一圖像的反應會隨時間變化：早期可能更敏感于局部特征，后期則逐漸體現更整合、更抽象的信息。

研究者分析了優(yōu)化圖像誘發(fā)的動態(tài)激活曲線（ P STH ），結果發(fā)現：

在 V4 神經元， DeePSim 優(yōu)化圖像在大部分早期和中期時間窗中都優(yōu)于 BigGAN ，說明 V4 仍然整體偏向紋理樣空間。

在 PIT 出現了鮮明的時間分工：早期響應： DeePSim 圖像更占優(yōu) 勢；晚期響應： BigGAN 圖像逐漸反超。

換句話說， PIT 神經元并不是靜態(tài)地 “ 同時對齊 ” 兩種空間，而是在時間上動態(tài)切換。早期，它更像是在利用局部紋理或中層特征快速響應；隨后，物體樣圖像所攜帶的整體結構和高級語義線索開始發(fā)揮更大作用，驅動更強的后期活動。這一結果與近期加州理工大學石悅琳、Doris Tsao團隊在Nature發(fā)表的視覺神經元動態(tài)編碼結果不謀而合。

這個發(fā)現很重要，因為它為理解生物視覺與人工視覺之間的差異提供了一個關鍵線索：大腦表征不僅是 “ 看到了什么 ” ，還包括 “ 什么時候以什么方式看到 ” 。當前多數卷積神經網絡之所以無法像 PIT 那樣同時良好對齊紋理和物體空間，可能正是因為它們缺少這種豐富的時間演化維度。

五、神經元調諧不是單一峰值，而是高維圖像流形中的復雜地形

除了比較兩類生成空間，這項工作還進一步追問：在 BigGAN 這樣一個物體圖像空間里，神經元的調諧曲線到底長什么樣？研究者在優(yōu)化結束后，從最優(yōu)點附近沿多個正交方向繼續(xù)采樣，系統(tǒng)測量神經元放電如何隨潛變量擾動變化。這相當于在局部 “ 掃描 ” 神經元在該圖像空間中的調諧地形。

結果發(fā)現：當進化已經成功接近神經元偏好的峰值時，沿許多方向看到的是鐘形調諧曲線（ bell-shaped ）；當進化并沒有真正接近峰值時，沿某些方向則更像是斜坡型調諧（ ramp-like ）

這意味著，過去文獻中關于某些高級視覺神經元到底是 “ 峰形調諧 ” 還是 “ 單調調諧 ” 的爭論，可能并不是非此即彼，而取決于你在高維圖像空間中采樣到了什么位置。

換句話說，神經元并不是只沿著單一特征軸工作，而是嵌在一個復雜的高維調諧地形中。我們觀察到的 “ 峰 ”“ 坡 ” 甚至 “ 多峰 ” ，都可能只是這個地形在不同切面上的投影。

這一視角也幫助解釋了為何高級視覺神經元常常會對多個語義上不相干的圖像都有反應：這些圖像在全局上可能不同，但在高維空間中，或許共享了通往同一響應高地的若干局部路徑。

六、這項工作意味著什么？

這項研究帶來的意義，至少體現在三個層面。

1. 它為理解視覺層級組織提供了新的框架

從 V1 到 V4 再到 PIT ，視覺系統(tǒng)并不是簡單地從 “ 低級特征 ” 走向 “ 高級物體 ” 的線性替代過程，而更像是在保留對局部紋理和關鍵特征敏感性的同時，逐漸獲得對更復雜物體流形的可操作表征能力。

2. 它提出了更具 “ 因果性 ” 的大腦-模型對齊定義

過去常見的對齊分析（alignment），往往比較的是模型表征與腦活動在統(tǒng)計上的相似性；而這里更進一步，問的是：神經元能否直接操縱一個生成模型，把圖像朝自己喜歡的方向推過去。這種 “ 能不能被神經元驅動 ” 的標準，更接近一種因果意義上的對齊。

3. 它展示了生成模型在神經科學中的新角色

生成模型不再只是用來 “ 生圖 ” 的工具，而可以成為連接大腦與刺激空間的動態(tài)接口。通過多模型、閉環(huán)、可優(yōu)化的實驗范式，研究者可以更加直接地逼近神經元真正偏好的視覺變量。

作者也指出，未來這類研究應進一步拓展到 diffusion models 等新一代生成模型上。與 GAN 相比，擴散模型擁有不同的潛空間結構和生成機制，或許會為研究神經調諧提供新的機會，也會提出新的挑戰(zhàn) 。

七、結語

當我們問 “ 一個神經元喜歡什么 ” 時，真正的答案也許并不是某張具體的圖片、某個明確的物體類別，甚至不是一個單獨的視覺特征，而是一個可以在多個圖像流形中被不斷逼近的高維偏好結構。

這項研究表明，靈長類視覺系統(tǒng)并沒有把“紋理”和“物體”割裂開來。相反，隨著視覺層級上升，神經元一邊保持對局部特征的敏感，一邊逐漸獲得對物體空間的動態(tài)對齊能力。而在時間維度上，這兩種表征還會彼此交錯、接力展開。

也許，大腦真正擅長的，從來不是識別某個孤立的視覺模板；而是在復雜多變的世界中，靈活地重組局部線索，逐步拼出對對象、場景與意義的理解。

交互式數據演示：

https://animadversio.github.io/NeuralEvolutionExplorer/

https://doi.org/10.1038/s41593-026-02207-1

制版人：十一

學術合作組織

（*排名不分先后）

戰(zhàn)略合作伙伴

（*排名不分先后）

轉載須知

【非原創(chuàng)文章】本文著作權歸文章作者所有，歡迎個人轉發(fā)分享，未經作者的允許禁止轉載，作者擁有所有法定權利，違者必究。

BioArt

Med

Plants

人才招聘

近期直播推薦

點擊主頁推薦活動

關注更多最新活動！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.