![]()
導語
單細胞測序賦予了我們捕捉細胞分子“快照”的能力,但在發(fā)育與疾病的復雜舞臺上,細胞命運的抉擇往往是確定性趨勢與隨機性波動共舞的結(jié)果。現(xiàn)有的漂移-擴散模型雖然擅長描述細胞狀態(tài)的確定性漂移,卻常將至關(guān)重要的隨機擴散簡化為恒定的背景噪聲,難以完全捕捉生命的動態(tài)調(diào)控邏輯。為了突破這一局限,研究人員引入了 scDiffEq——一種基于神經(jīng)隨機微分方程的全新生成式框架。該模型通過顯式學習生物學中的確定性與隨機性動力學,在造血發(fā)育研究中展現(xiàn)了卓越的細胞軌跡重構(gòu)與命運預測能力。它不僅能通過計算機模擬(in silico)精確重現(xiàn) CRISPR 基因擾動下的動力學變化,還能突破數(shù)據(jù)限制,從單一時間點快照中推演出高分辨率的發(fā)育軌跡,為解析基因?qū)用娴臅r間依賴性動力學提供了強大的新工具。
關(guān)鍵詞:單細胞動力學 (Single-cell Dynamics)、神經(jīng)隨機微分方程 (Neural Stochastic Differential Equations)、細胞命運預測 (Cell Fate Prediction)、計算擾動 (In Silico Perturbation)、發(fā)育軌跡 (Developmental Trajectory)
彭晨丨作者
王璇丨審校
![]()
論文題目:Learning cell dynamics with neural differential equations 論文鏈接:https://www.nature.com/articles/s42256-025-01150-3 發(fā)表時間:2025年12月18日 論文來源:Nature Machine Intelligence
引言:從靜態(tài)快照到動態(tài)電影的跨越
在生命科學的前沿探索中,理解細胞動力學是揭示發(fā)育奧秘和疾病機制的關(guān)鍵,動力系統(tǒng)支撐著包括分化和癌癥在內(nèi)的生物學基本過程。基因表達作為分子代理,被廣泛用于表征細胞的狀態(tài)。然而,現(xiàn)有的觀測手段存在一個根本性的問題:單細胞RNA測序(scRNA-seq)雖然能捕捉到細胞在穩(wěn)定和瞬態(tài)之間的快照,但這一過程本身是破壞性的,測量即意味著細胞的毀滅。這使得我們無法直接觀測同一個細胞的過去、現(xiàn)在和未來,只能通過計算推斷來重建細胞之間的時間動態(tài)和調(diào)控動力學。
為了跨越這一障礙,計算生物學家開發(fā)了一系列復雜的工具。近年來,RNA速率(RNA velocity)及其衍生方法(如Dynamo和CellRank)通過利用轉(zhuǎn)錄動力學的假設來推斷細胞的未來狀態(tài)。然而,這些基于RNA速率的方法主要模擬細胞狀態(tài)的平均漂移(Drift),即確定性部分,卻往往忽略了細胞特異性的擴散(Diffusion),即隨機性部分,或者僅僅將其視為均勻的高斯噪聲。事實上,隨機性在生物發(fā)育中絕非僅僅是噪音,它是從共同祖細胞生成多樣化細胞類型的必要條件,與確定性調(diào)控機制協(xié)同工作。解釋確定性和隨機基因表達之間的相互作用對于模擬復雜的細胞決策至關(guān)重要。為了填補這一空白,本研究開發(fā)了一種名為scDiffEq的全新深度學習框架。
scDiffEq框架:神經(jīng)隨機微分方程的生物學重構(gòu)
scDiffEq的核心創(chuàng)新在于引入了神經(jīng)隨機微分方程(Neural Stochastic Differential Equations, Neural SDEs)來直接參數(shù)化漂移-擴散方程。這種方法不再依賴于數(shù)十年的經(jīng)驗假設或局限于低維數(shù)據(jù),而是利用深度神經(jīng)網(wǎng)絡的強大擬合能力來數(shù)值近似復雜的動力學。
該框架將細胞在轉(zhuǎn)錄空間中的運動分解為兩個部分:由漂移網(wǎng)絡(Drift Network, f)控制的確定性動力學,以及由擴散網(wǎng)絡(Diffusion Network, g)控制的隨機動力學。具體而言,scDiffEq通過最小化預測細胞群體與觀察到的細胞群體之間的Sinkhorn散度(一種正則化的Wasserstein距離)來學習這些網(wǎng)絡。這意味著,模型通過讓虛擬細胞在“發(fā)育時間”中演化,不斷調(diào)整漂移和擴散參數(shù),直到模擬出的細胞分布與真實觀測到的后續(xù)時間點的細胞分布高度吻合。
這種設計使得scDiffEq不僅能夠捕捉細胞發(fā)育的主流方向,還能精確量化在不同細胞狀態(tài)下隨機噪聲的大小和方向。研究人員使用包含譜系追蹤信息的scRNA-seq數(shù)據(jù)(LARRY數(shù)據(jù)集)對模型進行了基準測試,該數(shù)據(jù)集通過可遺傳的條形碼記錄了細胞的真實系譜關(guān)系,為驗證模型的預測提供了“金標準”。
![]()
圖 1. scDiffEq 算法概覽及應用。
超越傳統(tǒng):細胞命運預測精度的飛躍
為了驗證scDiffEq的性能,研究團隊首先進行了一項極具挑戰(zhàn)性的任務:預測多能祖細胞的最終命運。在LARRY數(shù)據(jù)集中,研究人員利用早期的祖細胞數(shù)據(jù)訓練模型,并嘗試預測它們分化為中性粒細胞、單核細胞等成熟細胞的概率。結(jié)果顯示,scDiffEq在命運預測準確性上顯著優(yōu)于現(xiàn)有的單細胞特定方法。相比于僅達到4.1%至46.1%準確率的現(xiàn)有方法,scDiffEq實現(xiàn)了58.5%的準確率,超越了之前的最先進模型PRESCIENT(圖 2d)。值得注意的是,基于RNA速率的方法(Dynamo, CellRank)在此任務中表現(xiàn)不佳,這突顯了在長時程發(fā)育預測中,僅僅依賴轉(zhuǎn)錄動力學假設的局限性。
這一性能的提升并非偶然。研究團隊發(fā)現(xiàn),模型中“擴散”項的引入至關(guān)重要。當通過消融實驗移除細胞特異性的擴散模擬,轉(zhuǎn)而使用均勻的高斯噪聲時,模型的預測準確率下降了11.1%,且交叉熵顯著增加。這表明,僅僅知道細胞“想去哪里”(漂移)是不夠的,還需要理解它們在旅途中“有多猶豫”(擴散)。scDiffEq能夠捕捉到多能祖細胞復雜的命運軌跡,而不僅僅是單一的確定性路徑,從而更真實地反映了生物發(fā)育的多樣性。
此外,研究還揭示了漂移與擴散之間的最佳比例。系統(tǒng)評估顯示,當漂移/擴散比率維持在2.5左右時,模型的性能達到最佳。這一發(fā)現(xiàn)不僅優(yōu)化了模型參數(shù),也暗示了生物系統(tǒng)中確定性驅(qū)動力與隨機擾動之間存在某種內(nèi)在的平衡常數(shù)。
填補空白:稀疏時間點下的動力學插值
在實際的生物學研究中,我們往往無法獲得連續(xù)密集的時間序列數(shù)據(jù)。scDiffEq展示了其強大的插值能力,能夠從稀疏的時間點數(shù)據(jù)中恢復出連續(xù)的發(fā)育軌跡。在實驗中,研究人員僅使用第2天和第6天的細胞數(shù)據(jù)訓練模型,然后讓模型預測被故意隱去的第4天的細胞狀態(tài)。結(jié)果顯示,scDiffEq生成的第4天細胞分布與真實觀測到的數(shù)據(jù)在Sinkhorn距離上非常接近,優(yōu)于PRESCIENT模型。這一能力證明了神經(jīng)SDE不僅是在記憶數(shù)據(jù),而是真正學習到了潛在的動力學規(guī)律。這種時間插值能力對于理解快速發(fā)育過程或難以頻繁采樣的臨床樣本具有極高的應用價值。
![]()
圖 2. 使用譜系追蹤的造血發(fā)育數(shù)據(jù)對scDiffEq性能進行基準測試。
虛擬實驗室:計算機模擬的基因擾動篩選
scDiffEq最令人興奮的應用前景之一是進行計算機模擬(in silico)的基因擾動實驗。傳統(tǒng)的基因功能研究通常需要昂貴且耗時的CRISPR篩選或轉(zhuǎn)基因動物模型,而scDiffEq提供了一個高效的虛擬替代方案。研究團隊對參與粒細胞生成的關(guān)鍵轉(zhuǎn)錄因子(如Lmo4, Dach1, Klf4, Cebpe)進行了模擬擾動。結(jié)果令人印象深刻:當在模型中模擬過度表達這些轉(zhuǎn)錄因子時,細胞群體的命運明顯向中性粒細胞偏移,而單核細胞的比例則相應減少;反之,模擬敲低這些基因則產(chǎn)生了相反的效果。這種劑量依賴性的反應與已知的生物學事實高度一致,且線性回歸模型完全無法捕捉這種動態(tài)變化。
進一步地,研究人員利用scDiffEq對全基因組范圍內(nèi)的基因進行了虛擬篩選,試圖尋找決定粒細胞-單核細胞祖細胞(GMP)分化命運的關(guān)鍵調(diào)節(jié)因子。模型成功識別出了Gfi1作為中性粒細胞命運的促進因子,以及Ir8和Klf4作為抑制因子,這些預測與已知的血液學知識相吻合。更有趣的是,模型還發(fā)現(xiàn)了一些非轉(zhuǎn)錄因子的標記基因(如Mpo, Elane)在擾動后也會產(chǎn)生強烈的命運偏向,這雖然在生物學上可能意味著模型捕捉到了狀態(tài)與命運的強相關(guān)性而非因果性,但也為發(fā)現(xiàn)新的調(diào)控機制提供了線索。這一功能不僅在小鼠數(shù)據(jù)上得到驗證,還成功遷移到了人類造血數(shù)據(jù)上,重現(xiàn)了SPI1基因?qū)魏思毎\的劑量依賴性影響。這標志著scDiffEq有望成為藥物靶點發(fā)現(xiàn)和基因治療策略設計的強大輔助工具。
![]()
圖 3. 計算機模擬的基因擾動分析和跨數(shù)據(jù)集的泛化。
深入機制:隨機性是細胞可塑性的指紋
scDiffEq的獨特之處在于它能夠?qū)⒓毎麆恿W解耦為漂移和擴散兩個分量,這為我們提供了一個全新的視角來審視細胞的可塑性。研究人員分析了不同命運潛能的細胞軌跡,發(fā)現(xiàn)了一個引人注目的規(guī)律:細胞的漂移和擴散幅度與它的命運多能性(Plasticity)正相關(guān)。也就是說,那些能夠分化成多種細胞類型的多能祖細胞,其內(nèi)部的隨機波動(擴散)和確定性驅(qū)動(漂移)都比單能細胞更強烈。這表明,細胞在分化潛能最高的階段,處于一種高能量的活躍狀態(tài),積極地通過隨機波動來探索不同的命運可能性。
在具體的中性粒細胞-單核細胞分化軌跡中,scDiffEq揭示了擴散并非均勻分布。在決定命運的關(guān)鍵分叉點附近,擴散幅度顯著升高,而在細胞最終定型后則降低。此外,通過將轉(zhuǎn)錄因子表達與動力學參數(shù)相關(guān)聯(lián),研究者發(fā)現(xiàn)某些基因(如Myc, Cebpa)主要與擴散相關(guān),而另一些基因(如Gfi1, Lmo4)則更多地驅(qū)動確定性的漂移。這種細粒度的解析能力,讓我們得以窺見細胞如何在噪聲中通過特定的基因調(diào)控網(wǎng)絡鎖定最終命運。
![]()
圖 4.譜系定型(Lineage Commitment)過程中細胞特異性漂移-擴散動力學的分解和轉(zhuǎn)錄調(diào)控。
結(jié)語與展望
scDiffEq的提出標志著單細胞動力學建模進入了一個新的階段。它不僅在技術(shù)上實現(xiàn)了利用神經(jīng)隨機微分方程處理高維單細胞數(shù)據(jù)的突破,更在生物學意義上強調(diào)了隨機性在細胞發(fā)育中的核心地位。通過明確模擬漂移和擴散,scDiffEq比以往的方法更準確地描繪了細胞命運的決策過程,特別是對于那些罕見或多命運的復雜軌跡。
盡管目前的模型仍依賴于PCA降維后的潛在空間,可能掩蓋部分基因間的直接相互作用,但其展現(xiàn)出的可擴展性和通用性令人振奮。scDiffEq已被證明可以處理超過100萬個細胞的數(shù)據(jù)集,并具有近線性的計算擴展能力。未來,隨著多模態(tài)數(shù)據(jù)(如染色質(zhì)可及性、蛋白質(zhì)組學)的整合,以及無模擬流匹配(flow-matching)算法的引入,scDiffEq有望發(fā)展成為解析生命動態(tài)過程的通用引擎,為發(fā)育生物學和再生醫(yī)學提供更深邃的洞見。
細胞動力學讀書會
細胞絕非孤立的單元,生命的智慧,如同蟻群的協(xié)作,涌現(xiàn)在細胞間復雜的相互作用之中。跨越臨界點,簡單規(guī)則便能催生全新的、穩(wěn)定的結(jié)構(gòu)與功能。
半個世紀以來,復雜系統(tǒng)科學為我們提供了洞見生命現(xiàn)象的全新工具箱。本期活動,我們將融合物理學、復雜科學與系統(tǒng)生物學,從Waddington景觀、自組織臨界,到反應-擴散模型與類器官實驗,繪制一幅理解細胞命運與群體動力學的連貫地圖。
本次讀書會由李輝、王維康、韋曉慧三位學者及王艷博士共同發(fā)起,并沿兩條主線展開:一是探討細胞命運、多穩(wěn)態(tài)等理論核心;二是結(jié)合單細胞測序、時序推斷等方法,學習如何將靜態(tài)數(shù)據(jù)轉(zhuǎn)化為動態(tài)模型。
![]()
詳情請見:
1.
2.
3.
4.
5.
6.
7.
8.
9.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.