![]()
導語
理解和預測單細胞在化學、遺傳或機械擾動下的分子響應是生物學中的核心問題。獲取單細胞測量數據通常需要破壞細胞,這使得學習異質性擾動響應具有挑戰性。因為研究者們僅能觀察到擾動或未擾動細胞的未配對分布。在此,他們利用最優傳輸理論和近期出現的輸入凸神經架構,提出了CellOT框架:該框架通過映射這些未配對分布,實現對單個細胞在特定擾動下響應的學習。
關鍵詞:單細胞擾動響應,神經最優傳輸,輸入凸神經網絡,異質性,泛化能力,單細胞 RNA 測序(single-cell RNA sequencing, scRNA-seq),多重蛋白質成像
王璇丨作者
鄭鴻盛、趙思怡丨審校
![]()
論文題目:Learning single-cell perturbation responses using neural optimal transport 論文鏈接:https://www.nature.com/articles/s41592-023-01969-x 發表時間:2023 年 9 月 28 日 論文來源:Nature Methods
目錄
理論基礎與關鍵方法
CellOT模型與單細胞擾動預測
通過最優傳輸映射預測擾動反應
CellOT性能優于現有最先進方法
CellOT捕捉藥物反應中的細胞間變異性
CellOT分離亞群特異性藥物效應
CellOT精準推斷未見過患者的細胞反應
CellOT 可跨物種重建固有免疫反應
CellOT將分化結果擴展至低潛能細胞
從非時間分辨數據中表征單細胞擾動反應是生物學的一大挑戰,但對預測細胞對環境壓力或藥物的反應至關重要,尤其有助于理解腫瘤細胞逃避治療的機制。單細胞擾動反應高度異質,受基因/蛋白豐度、細胞狀態和微環境等因素影響,因此分析中必須納入多變量亞群結構,以準確預測個體細胞的藥物反應。
學習擾動反應的核心難題在于:細胞測量通常需要破壞性處理,無法獲取配對對照/擾動單細胞數據,只能獲得獨立的觀測集。匹配不同條件下的單細胞,同時考慮異質性,是復雜的配對問題。
本文提出CellOT,一種基于神經最優傳輸的擾動模型,通過學習對照與擾動細胞狀態的映射,直接預測單細胞擾動反應,同時顯式考慮多重分子讀數中的亞群異質性。CellOT假設擾動逐步改變細胞特征(如基因表達或信號活性),利用最優傳輸理論(OT)建模這些變化,并通過輸入凸神經網絡參數化對偶勢,實現高度可擴展且穩健的映射學習,可推廣至未見過的樣本或患者。
CellOT在四個方面驗證了有效性:(1)學習黑色素瘤細胞系中不同抗癌藥物的單細胞標志物反應;(2)預測系統性紅斑狼瘡患者活檢樣本中的單細胞轉錄組反應,以及膠質母細胞瘤患者的帕比司他治療結果;(3)推斷不同動物物種對脂多糖(LPS)的反應;(4)建模造血過程中細胞命運的轉錄組演變。此外,在多個任務上[12, 13]將CellOT與當前最先進的方法進行了基準測試。
理論基礎與關鍵方法
近年來,高通量技術能夠在單細胞層面揭示細胞群體對各種擾動的響應規律,但這些數據通常不具備時間分辨性,且擾動前后的數據未經過對齊處理。因此,理解單細胞如何響應擾動,需要依賴數學建模方法來刻畫對照組與擾動組之間的映射關系。在這里,最優傳輸(Optimal Transport, OT)提供了一個自然的框架。
最優傳輸具有雙重作用。它既可以在分布之間引入一種數學性質良好的距離度量,又能提供一種基于幾何的方法來實現兩個概率分布之間的耦合。設μ和ν為空間中的兩個測度。蒙日提出的最優傳輸問題定義為:
![]()
其中,對應最小代價的映射T即為最優傳輸映射。該公式是非凸的,求解難度較大。多年后,康托羅維奇[54]提出了一種松弛方法,允許進行軟分配,其形式為:
![]()
式中多面體Γ(μ, ν)的定義為,它描述了μ和ν之間所有耦合(或聯合分布)的集合。因此,最優傳輸計劃γ對應于使整體傳輸代價最小的兩個概率分布之間的耦合。基于最優傳輸耦合γ,μ和ν之間的距離W(μ, ν)被稱為Wasserstein距離。計算式(2)中的最優傳輸距離需要求解線性規劃問題,由此產生的計算成本對于大規模機器學習任務而言過高。通過引入熵項對目標函數(2)進行正則化,能夠顯著提升優化效率[55],同時保證目標函數關于輸入的可微性,因此該方法常被用作機器學習中的損失函數。
式(2)為最優傳輸的原始問題形式。康托羅維奇同時提出了對應的對偶問題[54],該對偶問題是一個帶約束的凹函數最大化問題,定義如下:
![]()
其中容許勢函數集合Φc的定義為(定理1.3)。維拉尼的定理2.9[23]進一步將關于函數對(g, f)的對偶問題(3)簡化為:
![]()
式中是空間中所有凸函數的集合,,為f的凸共軛函數。將測度μ映射到ν的最優傳輸映射對應于f的梯度,即T=?f。可以通過構造最優傳輸計劃。維拉尼的定理2.9證明了在空間中存在一個由下半連續的真共軛凸函數構成的最優函數對(f, f*),能夠使式(3)取得最小值。
輸入凸神經網絡。像式(4)中的這樣的凸空間,可以通過對輸入具有凸性的神經網絡進行參數化表示。阿莫斯等人[22]提出的輸入凸神經網絡(ICNN)就是一種這類參數化方法。輸入凸神經網絡基于全連接前饋網絡構建,通過對網絡參數施加約束來保證函數的凸性。一個參數為的輸入凸神經網絡表示一個凸函數f(x ; θ),對于第i層(i=0… L-1),其定義為:
其中激活函數σi為凸且非遞減函數,同時所有權重矩陣的元素都被約束為非負數。盡管存在這些約束,輸入凸神經網絡仍能對一大類凸函數進行參數化。陳等人[56]從理論上證明,定義在凸域上的任意凸函數都可以通過輸入凸神經網絡在一致范數意義下進行逼近。黃等人[57]進一步將輸入凸神經網絡從全連接前饋結構擴展到卷積神經網絡結構。此外,輸入凸神經網絡還被用于對Wasserstei梯度流[58-60]和重心[61]進行參數化。
CellOT模型與單細胞擾動預測
近年來發展的高通量技術能夠在單細胞層面揭示細胞群體對各種擾動的響應規律。但這類數據通常不具備時間分辨性,且數據之間未經過對齊處理。因此,擾動前后生物樣本的快照無法提供單個細胞的軌跡信息。擾動的形式包括施加影響細胞分子功能的藥物,或是改變細胞所處環境引發生物信號通路的變化,這些擾動會通過多種方式影響細胞及其狀態。
下文將介紹研究者的方法,該方法通過學習對照組與擾動組細胞狀態之間的映射關系,來揭示單細胞的擾動響應規律。設X為由測得的細胞特征所張成的生物數據空間,研究者將細胞對第k種擾動的響應視為在高維細胞狀態空間中的演化過程。
基于神經最優傳輸方法還原擾動效應。給定一個包含n個觀測樣本的數據集,其中樣本服從擾動前的細胞分布。同時給定另一組獨立樣本,其中樣本,研究者的目標是預測細胞在受到第k種擾動后的分布。
細胞的擾動響應是一個動態過程:施加擾動k后,細胞狀態會隨時間演化,因此可以將其建模為細胞數據空間中的一個隨機過程。盡管單細胞響應具有時間分辨的特性,但只能獲取擾動前的細胞狀態分布ρc和施加擾動k后的分布ρk。因此,需要在缺乏時間分辨的擾動響應數據的情況下,通過揭示ρc和ρk之間的映射T,來理解其背后的隨機過程。基于已有的生物學知識,可以假設擾動不會劇烈或完全改變細胞的基本生物學過程。因此,研究者們提出,可以利用最優傳輸這一數學理論來建模單細胞概率分布在擾動后的演化規律。
借鑒馬克瓦等人的研究思路[18],學習ρc和ρk之間的最優傳輸映射T(見式(1))。與希賓格等人[17]使用現有求解器為每一對細胞樣本單獨計算耦合γ的方法不同,研究者們采用神經網絡來學習一個參數化的最優傳輸映射。該參數化最優傳輸映射可作為穩健的預測器,用于預測未見過的n'個樣本例如來自其他患者的樣本)在擾動后的細胞分布變化。
最優傳輸映射的參數化。為了提出一種高效的最優傳輸映射學習策略,研究者們基于諾特[62]和布雷尼爾[63]的經典研究成果展開,這些成果建立了最優傳輸原始問題(2)與對偶問題(3)最優解之間的聯系。由于凸共軛函數f*的計算難度極大,馬克瓦等人提出用另一個凸函數g來近似式(4)中的f*,進而推導得到一個關于兩個凸函數的極大極小優化公式(參考文獻18的定理3.3),其形式如下:
![]()
該方法的核心思想源于如下事實:
![]()
可以發現,對于任意函數g,均滿足,當且僅當g=f*時等號成立(參考文獻18的定理3.3)。為了學習得到最優傳輸映射,也就是求解式(6)中的極小化問題,馬克瓦等人[18]采用輸入凸神經網絡[22]對兩個對偶變量g和f進行參數化,得到的傳輸映射定義為g的梯度。研究者們通過交替進行極大極小優化來求解最優傳輸映射T*,其優化過程如下:
![]()
其中,θ和Φ分別為兩個輸入凸神經網絡的參數。
基于CellOT預測擾動效應。上述框架能夠幫助研究者們建立對照組細胞與擾動組細胞之間的映射關系,從而揭示細胞在受到擾動k后的響應軌跡。給定一組擾動K,同時獲取對照組分布ρc以及每種擾動k∈K對應的擾動后分布ρk的樣本,CellOT通過求解式(7)來學習最優對偶勢函數對。在得到每種擾動k對應的凸勢函數參數化模型后,CellOT通過來預測對照組細胞在擾動k下的狀態變化,預測得到的擾動后樣本服從分布。因此,CellOT提供了一種通用方法,可用于預測單細胞層面的狀態軌跡,并揭示異質性細胞亞群結構在外部因素影響下的演化規律。
神經最優傳輸。除了本文采用的方法外,已有多項研究探索了基于輸入凸神經網絡的方法,將其作為式(1)的一種快速且可擴展的近似求解方案。塔格瓦伊等人[64]提出用輸入凸神經網絡對f進行參數化,通過分步求解f*來計算式(4),但該方法的計算成本極高。馬克瓦等人[18](即本文所采用的方法)對該工作進行了擴展,采用另一個輸入凸神經網絡g來近似f*,將原問題轉化為關于兩個輸入凸神經網絡的極大極小優化問題(見式(7))。此外,黃等人[57]受最優傳輸理論的啟發,提出了一種基于輸入凸神經網絡的歸一化流參數化新方法。關于當前各類神經最優傳輸求解器的詳細對比,可參考科羅廷等人的研究[65]。
局限性。單細胞表達譜分析能夠精細刻畫單個細胞的分子狀態,但這類檢測方法通常具有破壞性,無法實現細胞分子特性的連續時間監測。目前已有多種方法被提出,旨在從群體數據中揭示單個細胞的動態變化規律,但這些方法都面臨一個共同的挑戰:細胞狀態的時序分布可能由多種不同的基因調控動力學機制產生。由于該問題本身的不確定性,研究者們需要對細胞的潛在動力學過程做出一定的假設。
本研究的數學基礎源于一個生物學基本認知,即擾動會漸進式地改變細胞的分子圖譜。該原理與最優傳輸理論相契合,借鑒前人的研究工作[17],研究者們將其作為CellOT模型的自然理論基礎。然而,當這一基本假設不成立,即擾動對細胞群體造成了嚴重破壞,導致細胞狀態發生無法識別的改變時,CellOT及其他同類方法的性能都會下降(詳見討論部分)。在這種情況下,需要更復雜的數學工具來進行建模,但這類工具目前還無法擴展到包含多個基因的場景[66]。因此,研究者們需要依賴高時間分辨率的實驗數據,來捕捉連續時間點之間細胞狀態的顯著變化[67]。
此外,如果細胞系統在兩個連續的觀測快照之間存在旋轉或振蕩等動態過程,而這些過程未被檢測手段捕獲,那么基于最優傳輸的模型以及其他現有工具[68]都無法還原這類復雜的動力學過程。這在一定程度上是由于研究者們當前選擇的代價函數為歐氏距離(見式(2)),該選擇是綜合理論約束和實際性能表現后確定的。探索其他類型的代價函數將作為研究者們未來的研究方向。
除此之外,當前模型無法還原除細胞遷移外其他導致細胞分布隨時間變化的因素,例如細胞增殖和凋亡[67]。不過,已有最新研究提出了對經典神經最優傳輸框架的擴展方案,能夠將細胞的生死過程納入建模范疇[69]。
最后,當前生物工程技術的發展正致力于突破破壞性細胞檢測技術的局限性。陳等人[70]提出了一種能夠保持細胞活性的轉錄組分析方法。溫雷布等人[46]通過條形碼技術在克隆層面建立細胞與其子代細胞之間的聯系,從而實現對細胞分化過程的追蹤。這些技術能夠提供單細胞的時間軌跡信息(盡管通量較低),即實現不同觀測快照之間的細胞對應關系對齊。索姆納特等人[52]提出了一種與最優傳輸理論相關的新型算法框架,能夠有效利用這類(部分)對齊的數據集[71,72]。
通過最優傳輸映射預測擾動反應
小分子藥物可通過改變信號級聯等方式對細胞表型產生深遠影響,這些影響大多取決于擾動發生的背景。鑒于細胞群體和組織中單個細胞的異質性,預測細胞反應需理解背景塑造基因組活性及其對藥物反應的規律。通過單細胞基因組學或多重成像技術測量的高維單細胞數據可提供這種背景信息,但僅能返回細胞群體的非配對或未對齊觀測數據。CellOT可利用此類非配對數據,學習擾動后的細胞狀態轉變。
形式上,將未擾動的對照群體表示為ρc,由n個細胞xi(i=1,...,n)組成。在施加擾動k后,未擾動群體中每個細胞xi的多變量狀態發生變化,將其觀測為擾動群體ρk(圖1a)。為理解擾動的作用方式和效果,研究者通過參數化映射Tk(見圖1a,b)學習群體ρc和ρk之間的轉變和對齊,該映射解釋了每個細胞從未擾動細胞群體ρc在接受干預k后轉變為其擾動狀態ρk的過程。盡管源自不同觀測,映射Tk仍能為每個細胞xi確定擾動群體中最可能對應的細胞Tk(xi)(圖1c)。找到該映射不僅能建模擾動后的單細胞軌跡,還能預測未見過的對照細胞的擾動狀態。因此,可通過將學習到的映射Tk應用于新的未擾動群體ρc',預測擾動k的結果(圖1d)。
![]()
圖1 | CellOT模型概述。a,單細胞分布在未處理的對照狀態(ρc)或多種擾動狀態之一(ρk、ρl、ρm等)下進行測量,這些分布位于所分析特征的高維空間中。b,對于擾動k,旨在用函數Tk對其建模,該函數將ρc中的未處理細胞映射到ρk中的處理后對應細胞。c,缺乏配對測量時,研究者們假設擾動在最小努力原則下將ρc轉化為ρk,具體而言,利用最優傳輸理論學習Tk,將這種分布映射直接估計為最優傳輸對偶勢的梯度?θ。d,為所有擾動獨立學習最優傳輸映射,由于這些映射完全參數化,例如,CellOT可在一組初始提供的樣本上訓練,進而對來自新的、未見過樣本的未處理細胞進行預測。
研究者們尋求的對齊對照和擾動群體的最優映射Tk,應能最好地描述施加擾動k后每個細胞多變量特征的漸進式變化。利用最優傳輸[23, 24]恢復這些映射并揭示單細胞重編程軌跡,已被提出作為單細胞生物學領域的強有力建模假設[16, 17, 25-28]。最優傳輸問題返回分布ρc和ρk之間的對齊,對應于對齊分子特征之間的最小總體成本,從而確定每個細胞在擾動后的最可能狀態(圖1c)。學習Tk使其圖像對應于ρk,且質量根據最小努力原則從ρc轉移到ρk。由于直接參數化最優傳輸映射Tk[20, 21, 29]不穩定[18],通過輸入凸神經網絡對最優傳輸對偶問題的凸勢f和g進行參數化,并利用凸函數gk的梯度(?gk)[18]恢復最優映射Tk。補充部分A.3詳細綜述了為單細胞生物學問題提出的最優傳輸方法,以及本文方法與先前方法的差異。
為全面評估CellOT的性能,研究者們將其與基于自動編碼器的當前最先進方法[12, 13]進行基準測試,這些方法試圖通過操縱學習到的潛表征添加擾動效果(補充部分A.1有綜述)。為進一步驗證最優傳輸建模先驗的假設,研究者們將每個擾動k的學習到的最優傳輸映射nabla gk與簡單的非基于最優傳輸的對齊進行比較。
CellOT性能優于現有最先進方法
研究者們應用CellOT,利用包含兩種黑色素瘤細胞系(M130219和M130429)的蛋白質組學數據集(通過迭代間接免疫熒光成像技術(4i)[5]分析)和單細胞RNA測序數據集[31](分別包含34種和9種不同治療方法),預測細胞群體對癌癥治療的反應。數據集詳情見在線方法。研究者們將CellOT與兩種基于自動編碼器的工具(scGEN和cAE[12])以及PopAlign(一種基于通過高斯密度混合近似的對照和處理空間亞群對齊的方法)進行基準測試。由于單細胞RNA測序數據的高維特性,研究者們在自動編碼器學習到的潛表征上應用CellOT。兩種4i治療和兩種單細胞RNA測序治療的觀測與預測細胞群體的邊緣分布如圖2a,d所示,每種擾動選擇兩個特征,完整邊緣分布集見補充圖1-4。自動編碼器基線傾向于捕捉處理后細胞群體的均值,但在匹配擾動群體的所有異質性狀態(擾動群體的高階矩)方面效果不佳,因此這些模型往往學習過度簡化的擾動效果,難以滿足理解異質性而非平均細胞行為的需求。而CellOT能捕捉這些高階矩,實現準確且細致的預測。
這可通過分布度量(如最大均值差異(MMD)[33])進一步量化。較小的最大均值差異值意味著兩個分布的所有矩均匹配,因此能精細捕捉擾動細胞的整個分布,而非僅局限于群體平均(在線方法有詳細說明)。所選擾動的預測群體與觀測群體之間的最大均值差異如圖2b,e所示。對于單細胞RNA測序數據,最大均值差異評估使用前50個標志物基因進行,所選標志物基因數量的影響分析見補充圖7。除自動編碼器基線外,研究者們還納入簡單的恒等基線(僅通過返回未處理狀態預測治療效果)以及理論下限(觀測值,由一組不同的觀測擾動細胞組成,與真實預測的差異僅源于實驗噪聲)。結果表明,CellOT可接近下限(觀測設置),而基線方法通常相比恒等設置無明顯改進。
![]()
圖2 | CellOT在不同數據模態上優于當前最先進方法。a–f,通過4i(a)和單細胞RNA測序(d)分析的細胞標志物基因表達的邊緣分布(x軸)。觀測到的對照和處理狀態分別以淺藍色和深藍色顯示,CellOT預測結果以紅色顯示,基線預測結果(scGEN、cAE和PopAlign)以灰色顯示。基于分布距離 MMD(最大均值差異)以及觀測擾動細胞與預測擾動細胞之間的平均相關系數r2,對4i(b)和單細胞RNA測序(e)數據的模型進行比較。誤差棒表示測試集十次自舉抽樣的標準差,虛線對應恒等和觀測性能的中位數。4i(c)和單細胞RNA測序(f)數據的觀測處理細胞與各模型預測細胞的聯合UMAP嵌入。投影在聯合細胞集上計算,通過下采樣使觀測擾動細胞(灰色)和預測擾動細胞(藍色)數量相等。恒等映射用于比較處理細胞與未處理細胞。分析針對曲美替尼、伊馬替尼和加維諾司他三種藥物進行,4i數據使用M130219和M130429細胞系生成(在線方法)。
所有35種4i療法和6種單細胞RNA測序療法的不同評估指標總結于補充圖5和6。除最大均值差異外,研究者們還納入均值,用于測量所有特征上觀測與預測平均藥物效果之間的距離。最后,研究者們比較了所有特征上預測數據與觀測數據之間的總體平均相關系數r2(在線方法)。在所有治療中,CellOT在這兩項指標上均優于基線,通常高出一個數量級。研究者們認為CellOT的出色性能源于其能夠通過最優傳輸理論,學習明確考慮細胞群體數據幾何結構的傳輸函數。這一假設得到以下觀察結果的支持:處理后和未處理群體之間的特征間相關結構在很大程度上保持不變,這正是最優傳輸方法的優勢場景。詳情見擴展數據圖1,擴展數據圖2可視化了學習到的映射,進一步證明了CellOT建模精細反應的能力。
最后,研究者們利用全特征空間,對預測和觀測擾動細胞的聯合集進行了UMAP嵌入(UMAP)[34](圖2c,f)。結果顯示,CellOT推斷的擾動細胞狀態與觀測到的擾動細胞高度整合,而兩種基線均無法完整恢復擾動分布,因此無法一致捕捉不同亞群的擾動狀態。
CellOT捕捉藥物反應中的細胞間變異性
捕捉同一樣本中不同細胞類型的不同擾動反應仍是一項具有挑戰性的計算任務。為降低任務復雜性,預測算法可在擾動和未擾動狀態下通過預定義的細胞類型標簽進行指導[32],或設置為近似平均藥物反應[13]。但這些簡化存在代價:依賴于對現有相關細胞類型的先驗知識,假設細胞類型在擾動前后具有相同特征,且同一細胞類型內藥物反應一致。在最壞情況下,這些局限性可能掩蓋真實且重要的藥物反應異質性,阻礙發現新的細胞類型或細胞狀態特異性擾動反應(補充圖13提供進一步比較)。CellOT無這些局限性,能讓科學家以最適合解答其生物學問題的粒度查詢預測的單細胞反應。作為概念驗證,研究者們將上述患者來源的黑色素瘤細胞系按等比例共培養(在線方法),并進行定制藥物篩選——將細胞暴露于34種藥物中8小時,通過4i技術測量單細胞藥物反應。利用CellOT,研究者們為每種藥物預測了一組共享對照(二甲基亞砜(DMSO)處理)細胞的擾動細胞狀態(圖3a)。先前研究[7]表明,藥物處理后信號激酶的磷酸化水平與細胞狀態密切相關。為評估預測擾動細胞與觀測擾動細胞中這種關系是否保持一致,研究者們利用CellOT學習到的每種藥物的傳輸映射,分析了細胞外信號調節激酶(pERK)的磷酸化水平。使用750個預測擾動細胞和750個觀測擾動細胞,研究者們基于除pERK外的所有特征聯合計算了UMAP嵌入。圖3b顯示了分別標注每個細胞相應pERK水平的預測群體和觀測群體。結果發現,兩種投影的空間組織幾乎完全一致,且在兩類細胞和所有藥物處理中,pERK水平的分布高度相似(擴展數據圖3a,b和在線方法有進一步分析)。
CellOT分離亞群特異性藥物效應
通過計算預測擾動細胞與未處理對照細胞之間的差異,CellOT可分離每種藥物的作用方式。所有細胞的UMAP嵌入(按處理方式著色)能清晰區分不同處理(圖3c和擴展數據圖3e),CellOT能準確學習所有這些差異(補充圖5)。而僅考慮平均擾動效果時,不存在這種明顯的處理嵌入(擴展數據圖3d),這表明捕捉藥物反應的細胞異質性至關重要。
基于全特征集的萊頓聚類,研究者們將未擾動對照細胞分為12種細胞狀態(圖3d、擴展數據圖3g和在線方法)。細胞狀態1、5、6、9和12顯示出高MelA水平且無SOX9,對應黑色素細胞系M130429;而SOX9陽性且MelA陰性的狀態2、3、4、7、8、10和11代表間充質細胞系M130219(在線方法)。總體而言,M130429細胞的測量信號激酶磷酸化水平高于M130219;大多數藥物處理后仍保留典型的細胞狀態空間組織,且同一細胞系的細胞狀態聚類在一起(擴展數據圖3f)。
通過計算每種藥物的對照與處理狀態之間的差異(最優傳輸成本),研究者們可進一步表征藥物的作用強度。凋亡誘導劑(如星形孢菌素)、蛋白酶體抑制劑(如伊沙佐米和卡非佐米,或聯合治療卡非佐米+泊馬度胺+地塞米松)、微管穩定劑(如紫杉醇)、c-Met抑制劑(如克唑替尼)以及多種酪氨酸激酶(如c-KIT和Bcr-Abl)的ATP競爭劑(達沙替尼)顯示出高傳輸成本,因此在所有細胞狀態中均產生顯著的特征變化(圖3e)。其他藥物在8小時孵育期內顯示出較弱的效果。研究者們發現,除達沙替尼外,所有擾動均在兩種細胞系的多種細胞狀態中增加了凋亡標志物切割型半胱天冬酶3的水平(擴展數據圖3k);達沙替尼僅在與M130429相關的細胞狀態5、6、9和12中誘導細胞死亡(圖3f)。
Smith等人[35]的先前研究報道,M130429細胞在MEK抑制劑(MEKi)和RAF抑制劑(RAFi)處理后代謝活性降低,而M130219細胞對這些抑制劑具有抗性。以pERK和pAKT作為相應讀數,比較兩種細胞系對曲美替尼(MEKi)和MLN2480(泛RAFi)在MEK和PI3K通路中的反應,結果發現:MEKi敏感的M130429細胞下調pAKT和pERK,而MEKi抗性的M130219細胞僅下調pERK。一致地,MLN2480處理也產生了類似的差異藥物反應(擴展數據圖3i)。這表明MEK和PI3K通路的解偶聯可能賦予對MEK和Raf抑制劑的抗性,并構成癌癥治療逃逸的適應機制[36]。當分析曲美替尼(MEKi)和達拉非尼(BRAFi)聯合處理后的pAKT和pERK水平時,研究者們發現了更多通路串擾改變的支持證據。
針對兩種作用于MEK通路的藥物,研究者們觀察到兩種細胞系的pERK均降低,但在MEKi抗性細胞系M130219(患者預先暴露于MEKi期間獲得抗性)中發現pAKT水平升高(圖3f)。這一發現表明,M130219在MEKi治療期間獲得了補償性反饋機制——MEK通路的抑制(量化為pERK降低)會促進PI3K通路的信號傳導,可能通過激活上游受體激酶[37]實現。研究者們對兩種共培養的原代黑色素瘤細胞系在多種抗癌藥物處理下的研究結果表明,CellOT無需預定義細胞系標簽,通過納入潛在的細胞間變異性,可準確捕捉未擾動細胞群體的表型異質性,并預測多樣化的藥物反應。
![]()
圖3 | CellOT助力癌癥藥物的多重單細胞表征。a,CellOT訓練和預測設置。訓練34個CellOT模型,每種藥物擾動對應一個模型,隨后每個模型用于從一組常見的未見過對照細胞中預測擾動細胞。b,基于34種擾動的同等數量預測細胞和測量細胞構建的UMAP嵌入。點表示細胞,顏色表示測得的pERK強度。AU,任意單位。c,使用預測細胞的單細胞擾動效果的UMAP嵌入。點對應細胞,按藥物處理著色(擴展數據圖3提供完整圖例,在線方法提供單細胞擾動效果計算方法)。d,對照細胞中鑒定的細胞狀態(在線方法)。每列代表一種細胞狀態,橫軸為基于與M130219和M130429細胞系關聯排序的細胞狀態,縱軸為細胞特征(擴展數據圖3提供完整特征集)。圓圈的大小和色調根據特征值縮放。e,每種細胞狀態的藥物處理傳輸成本(TC)聚類圖(主熱圖,藍-黃配色方案)、每種藥物所有狀態的傳輸成本總和(熱圖左側第一列,紫色)、每種藥物傳輸成本的變異系數(CV)(熱圖左側第二列,綠色)以及基于藥物細胞狀態傳輸成本層次聚類的樹狀圖。細胞狀態按d中的方式排序。f,細胞狀態特異性藥物反應。(i)達沙替尼(上)。(ii)曲美替尼+達拉非尼(下)。c中UMAP嵌入的條件聚焦放大圖(左上);與左上相同但按細胞狀態分配著色(右上);列代表細胞狀態(cs),行顯示突出特征(下)。“cell-”代表平均細胞強度。圓圈根據藥物效果大小縮放,效果越強圓圈越大。負值以藍色色調編碼,正值以紅色色調編碼。
CellOT精準推斷未見過患者的細胞反應
CellOT學習到的治療前后分子狀態之間的映射,有助于更好地理解對特定藥物有反應的細胞與無反應細胞之間的差異。這對于推斷新患者的藥物反應以及細胞間變異性高的場景至關重要。但要對未見過的患者進行預測,需證明學習到的映射T能連貫且穩健地建模不同患者的擾動反應,同時為每個患者預測個性化治療結果,而非僅提供群體平均結果。為測試CellOT在這種樣本外(o.o.s.)場景中的泛化能力,研究者們使用外周血單個核細胞液滴單細胞RNA測序數據集。Kang等人[38]表征了8名狼瘡患者對β干擾素(IFN-β)反應的細胞類型特異性和個體間變異性——β干擾素是一種強效細胞因子,可誘導免疫細胞轉錄組的基因組規模變化。下文比較了CellOT和其他基線在獨立同分布(i.i.d.)場景(模型可見所有患者的細胞)和樣本外場景(模型不可見特定未參與訓練患者的細胞)中的性能(圖4a)。
與先前分析一致,研究者們評估了CellOT捕捉不同標志物基因從對照到β干擾素處理細胞的整體表達變化的準確性,進而評估預測的基因表達邊緣分布與處理群體的對齊程度(圖4b)。研究者們選擇CXCL11、CCL2和APOBEC3A基因,因為它們與自身免疫性疾病(包括系統性紅斑狼瘡)[39, 40]相關,因此是狼瘡患者治療中潛在的治療靶點,也可能適用于其他干擾素病[39-43]。這些選定基因從對照到擾動群體的表達發生顯著變化,部分在擾動后表現出雙峰基因表達譜。與CellOT不同,基線無法準確預測這些基因的顯著轉錄組變化。受β干擾素處理強烈影響的其他基因的擴展分析見補充圖9和10。
所有模型(包括CellOT)使用基于患者隊列訓練的廣義擾動模型TL,并以未見過患者的對照細胞為輸入,建模新患者的治療結果時,性能幾乎無下降。通過最大均值差異度量比較預測群體與觀測值,這一點尤為明顯。圖4c顯示了將每位患者分別作為未參與訓練集的匯總結果,其他評估指標(包括特征均值)見補充圖8。在獨立同分布和樣本外場景中,CellOT均優于先前的基線,且在泛化到未見過患者時性能下降更小(補充圖11有更多結果)。這些結果表明,學習到的最優傳輸映射能正確建模所有患者中存在的細胞亞群結構變化,因此樣本外性能穩健。研究者們對包含7名患者的膠質母細胞瘤隊列重復了相同評估[44];但由于隊列規模小且個體反應差異大,CellOT和所有基線在該場景中的泛化均面臨困難,完整分析見擴展數據圖6。
CellOT 可跨物種重建固有免疫反應
固有免疫反應是一種細胞內在防御程序,反應細胞間具有高度異質性,因此是評估CellOT能力的理想任務。研究者們的分析基于Hagai等人[45]收集的數據集,該數據集研究了不同物種(包括豬、兔、小鼠和大鼠)單核吞噬細胞先天免疫程序的進化。通過脂多糖(LPS)刺激這些原代骨髓來源細胞,下文測試了CellOT和基線在重建訓練期間未接觸過的物種的先天免疫反應方面的性能。研究者們將這種泛化任務稱為分布外(o.o.d.)任務,因為與樣本外場景不同,不同物種的反應預計存在顯著差異(圖4d)。未參與訓練集由大鼠或小鼠來源的細胞組成,擴展數據圖4a,b分析了跨物種相似性及選擇未參與訓練集的原因。
事實上,在獨立同分布和分布外場景中,CellOT均能準確重建小鼠和大鼠的先天免疫反應。這一點不僅通過更精確捕捉脂多糖添加后顯示高差異表達的標志物基因(如Nfkb1(NF-κB)、Oasl1(Oasl1)、Mmp12和Cxcl5)的平均表達水平得以體現(圖4e和擴展數據圖4c,d),還通過分布外預測與未參與訓練觀測值在所有基因上的平均相關系數r2得以驗證(圖4f)。特別是,分析每種方法捕捉不同物種固有免疫反應異質性的能力時,CellOT優于基線,表現為較低的最大均值差異(圖4f)。最值得注意的是,研究者們的方法顯示出上述標志物基因表達邊緣的高度對齊——這些基因在擾動后表現出復雜的雙峰表達譜(圖4g)。
CellOT將分化結果擴展至低潛能細胞
在發育過程中,干細胞和祖細胞經歷一系列命運決定層級,其特征是細胞持續分化,不斷完善自身特性,直至達到功能終末狀態。通過追蹤初始細胞群體的分化過程,CellOT可恢復單個分子細胞命運決定和發育軌跡。
Weinreb等人[46]通過追蹤廣泛類別的寡能和多能祖細胞亞群,并在第2、4和6天觀察樣本,分析了造血干細胞和祖細胞的命運潛能(圖4h)。本文測試了CellOT和其他基線學習第2天觀測細胞向第4和6天(合并)觀測細胞分化過程的能力,以及在不同亞群間的泛化能力(分布外場景)。研究者們訓練了兩個映射:映射To僅在寡能細胞上訓練,Tm在多能細胞上訓練。這些映射的獨立同分布版本在寡能和多能細胞上均進行訓練,因此每組獨立同分布和分布外映射在相同測試集上進行評估。使用最大均值差異度量比較預測與觀測分化細胞狀態的分布距離,結果表明,在獨立同分布場景中,CellOT在寡能和多能子集上均優于當前最先進方法(圖4i)。此外,盡管基線在兩種分布外場景中均表現不佳,但CellOT能在一個方向上泛化其預測(從多能細胞到寡能場景)。與寡能細胞不同,多能細胞具有更高的潛能,因此可能分化為更多細胞類型,因此研究者們預期Tm比在潛能較低的寡能細胞上訓練的To更可能泛化。當使用To預測多能細胞的發育擾動時,無法恢復分化細胞命運。
研究者們進一步比較了不同時間點和不同細胞類型的性能。圖4j顯示了使用映射Tm分別對第4天和第6天細胞建模多能細胞發育的準確性。顯然,CellOT在預測短程發育動態時比預測時間上更遠的狀態時結果更好(擴展數據圖5有更多結果)。這表明所有這些方法可能存在潛在局限性——難以在粗時間分辨率下恢復對齊。此外,盡管第4和6天的絕大多數細胞仍未分化(undiff),但部分細胞已分化為中性粒細胞(neut)、單核細胞(mono)、嗜堿性粒細胞(baso)、淋巴樣前體細胞(lymph)或樹突狀細胞(DCs)。正如預期,對于數據集中僅少量存在的細胞類型,CellOT的性能(以最大均值差異度量)有所下降(圖4k)。
![]()
圖4 | CellOT泛化到未見過的患者和細胞亞群。a–k,樣本外(a–c)和分布外(d–k)場景。a,8名狼瘡患者的細胞在未處理和β干擾素處理狀態下進行測量。針對每個樣本,訓練兩個模型:樣本外模型(基于所有其他樣本的細胞訓練)和獨立同分布模型(額外使用未參與訓練樣本的一半細胞訓練,未顯示)。b,未參與訓練樣本在獨立同分布(上)和樣本外(下)場景中的預測細胞邊緣分布。兩個模型的預測均在相同測試集上進行(未用于訓練兩個模型)。c,獨立同分布和樣本外場景中,所有未參與訓練樣本的預測分布與觀測處理分布之間的最大均值差異分數。箱線圖顯示中位數和四分位數。d,作為分布外任務,訓練CellOT和基線預測不同物種對脂多糖的反應,并以大鼠(或小鼠)作為未參與訓練物種進行測試。e,CellOT和scGEN對選定標志物基因的獨立同分布和分布外預測的平均基因表達。f,CellOT和基線在分布外場景中r2相關特征均值和最大均值差異的性能比較。數據表示為測試集十次自舉抽樣的均值±標準差。g,以大鼠作為未參與訓練物種訓練時,顯示雙峰表達譜的標志物基因的分布外預測邊緣分布。h,多能和寡能亞群的細胞在第2、4和6天進行測量。僅基于多能細胞(Tm)或寡能細胞(To)訓練時,應用CellOT預測第2天細胞如何發育為第4和6天的合并集。然后應用Tm預測分布外寡能細胞,應用To預測分布外多能細胞。與樣本外場景類似,訓練獨立同分布模型,包括未參與訓練亞群的一半。i,所有模型在分布外和獨立同分布預測任務中(第4和6天聯合)的預測與(觀測)發育分布之間的最大均值差異分數。j,使用Tm時,CellOT在每個場景中對不同細胞類型預測第4天和第6天狀態的性能。k,第4和6天每種細胞類型的細胞數量和百分比。
本文提出CellOT框架,該框架利用神經最優傳輸技術,基于非配對的處理后與未處理細胞狀態建模單細胞擾動反應。通過從最優傳輸視角充分建模問題本質,CellOT能夠確定擾動對細胞特性的影響,重建單細胞在擾動后的最可能軌跡,進而助力深入理解細胞命運決定的驅動因素及細胞逃逸機制。CellOT借鑒了最優傳輸技術近年來在單細胞生物學中的應用成果[16,17],引入了可應用于未知新樣本的完全參數化傳輸映射。此前方法[19-21]依賴于原始最優傳輸映射的無約束參數化,然而這類模型的無約束特性使穩健優化面臨挑戰,導致性能下降[18]。與之不同,研究者們通過對偶最優傳輸問題學習未擾動到擾動細胞狀態的轉換,該問題通過一對受凸性約束的神經網絡進行參數化[18]。這些約束構成了重要的基于理論的歸納偏置,能夠促進模型學習,最終形成可靠且易于訓練的框架——CellOT在多個問題中均展現出穩定優異的性能,且無需大量超參數調優,這一事實也印證了上述優勢(詳見在線方法)。
CellOT能夠推斷細胞群體對擾動的高度復雜非線性演化過程,且無需對這些動態過程的本質做出強簡化假設。與現有基于自動編碼器的基線方法[12-14]不同,CellOT無需依賴學習有意義的低維嵌入空間,并將擾動建模為該空間中的線性移位。研究者們通過對癌細胞系中不同藥物的單細胞反應實驗(結合RNA-seq和空間分辨4i測量技術)驗證了這一優勢,結果表明CellOT性能始終更優(圖2及補充圖5)。研究者們的評估不僅局限于常用的平均治療效果和全細胞相關性分析,還通過邊緣分布分析和最大均值差異(MMD)分數計算,對預測分布與觀測分布的匹配程度進行了更嚴格的量化評估。
利用CellOT進行細胞狀態感知藥物分析,研究者們能夠將擾動效果量化為研究系統潛在異質性的函數——本研究中即兩種對藥物敏感性不同的黑色素瘤細胞系共培養體系。通過這種方式,研究者們優化了所測藥物的反應圖譜,揭示了與細胞系供體治療史相關的多信號通路細胞狀態特異性反應。研究者們發現,預先暴露于MEK抑制劑的細胞中,MEK和PI3K通路的信號活性發生解偶聯,這是黑色素瘤細胞已知的治療逃逸適應機制[36]。這種通路重連與細胞分子反饋結構從效應器向受體的轉變相關[36, 47]。因此,將CellOT與更多組合治療方案、多重成像技術及反映疾病適應特性的細胞體系相結合,有望助力研究者們闡明癌癥治療背景下信號通路演化的分子機制。
研究者們進一步分析了所學映射在訓練樣本之外(樣本外場景)及不同樣本組成(分布外場景)中的泛化能力。如圖4所示,研究者們測試了CellOT預測未見過狼瘡患者治療反應、推斷低潛能干細胞發育軌跡及跨患者轉換先天免疫反應的能力。在所有場景中,CellOT的準確性和精確性均優于當前最先進方法(圖4)。此外,擾動后的預測細胞狀態與實際觀測細胞狀態仍高度接近。這些結果極具應用前景,表明精準的樣本外和分布外預測是切實可行的。
然而,分布外預測能力(如對未見過患者的預測)的實現需滿足兩個條件:(1)在未擾動場景中已觀測到相似樣本;(2)訓練集包含不僅未擾動狀態相似、且擾動反應也相似的案例。對接受帕比司他治療的膠質母細胞瘤患者的分析(擴展數據圖6a-c)證實了這一局限性:CellOT及基線方法能夠對未擾動狀態和擾動效果均與其他患者相似的病例預測治療結果(擴展數據圖6f),但無法捕捉表現出獨特反應患者的擾動效果(擴展數據圖6g)。在分布外場景應用CellOT時,這一局限性需重點考量。要解決此類問題,需擴大隊列規模、補充元信息并拓展方法學。Bunne等人[48]提出了一種神經最優傳輸方案,通過在預測擾動反應時納入上下文信息(如患者元數據),部分解決了這一問題。
研究者們還觀察到,當擾動過強時(擾動前后細胞分布差異極大),CellOT的預測性能會下降(圖4j),其他方法也出現了類似的性能下滑(補充圖12)。最優傳輸理論的核心原理適用于急性細胞擾動場景——在此類場景中,單細胞不會在多維測量空間中完全隨機重分布,通常僅在少數維度發生變化,因此整體相關結構得以保留。當通過規律且高頻的快照觀測擾動反應時,該建模假設可得到滿足;但當擾動反應進展過深時,分子轉換過程無法被重建。對于極強或極復雜的擾動,細胞多重特征圖譜可能發生劇烈變化,違背最優傳輸假設,導致難以基于最小努力原則重建未擾動與擾動群體間的對齊關系。在此類場景中,可能需要補充額外信息,例如潛在生物學模型或整合多個小時步觀測結果的模型。
盡管細胞命運決定具有隨機性,且細胞動態過程本質上存在噪聲[49],但CellOT仍將細胞反應建模為確定性軌跡。此前研究表明,與確定性方法相比,將細胞命運決定視為概率事件的方法能更充分地估計完整動態模型[50]。近期研究[51, 52]通過將最優傳輸與隨機差分方程相結合,可在CellOT基礎上考慮生物異方差性,但需以增加模型復雜性及引入其他簡化假設為代價。
盡管研究者們通過深入分析所學映射的本質,以及驗證CellOT在多種應用場景中的通用性,為其對不同數據模態下多種化學擾動的建模能力提供了概念驗證,但CellOT的泛化能力仍基于相對較小的數據集進行評估。關鍵在于,由分子特征各異的患者(如具有不同潛在遺傳學特征的癌癥患者)組成的大型隊列,可能會產生高度異質的治療反應。顯然,針對這些挑戰的研究方法可充分利用即將出現的大規模患者隊列研究數據。利用神經最優傳輸技術學習單細胞藥物反應,為未來研究開辟了廣闊前景,包括助力深化對細胞療法的理解、研究患者樣本的藥物反應,以及在大規模藥物設計中更好地考慮細胞間變異性。
參考文獻
Frangieh, C. J. et al. Multimodal pooled Perturb-CITE-seq screens in patient models define mechanisms of cancer immune cell evasion. Nat. Genet. 53, 332–341 (2021).
Liberali, P., Snijder, B. & Pelkmans, L. A hierarchical map of regulatory genetic interactions in membrane trafficking. Cell 157, 1473–1487 (2014).
Battich, N., Stoeger, T. & Pelkmans, L. Image-based transcriptomics in thousands of single human cells at single-molecule resolution. Nat. Methods 10, 1127–1133 (2013).
Battich, N., Stoeger, T. & Pelkmans, L. Control of transcript variability in single mammalian cells. Cell 163, 1596–1610 (2015).
Gut, G., Herrmann, M. D. & Pelkmans, L. Multiplexed protein maps link subcellular organization to cellular states. Science 361, eaar7042 (2018).
Shaffer, S. M. et al. Rare cell variability and drug-induced reprogramming as a mode of cancer drug resistance. Nature 546, 431–4335 (2017).
Kramer, B. A., Sarabia del Castillo, J. & Pelkmans, L. Multimodal perception links cellular state to decision-making in single cells. Science 377, 642–648 (2022).
Snijder, B. et al. Population context determines cell-to-cell variability in endocytosis and virus infection. Nature 461, 520–523 (2009).
Wu, F. et al. Single-cell profiling of tumor heterogeneity and the microenvironment in advanced non-small cell lung cancer. Nat. Commun. 12, 2540 (2021).
González-Silva, L., Quevedo, L. & Varela, I. Tumor functional heterogeneity unraveled by scRNA-seq technologies. Trends Cancer 6, 13–19 (2020).
Li, C. et al. Single-cell transcriptomics reveals cellular heterogeneity and molecular stratification of cervical cancer. Commun. Biol. 5, 1208 (2022).
Lopez, R., Regier, J., Cole, M. B., Jordan, M. I. & Yosef, N. Deep generative modeling for single-cell transcriptomics. Nat. Methods 15, 1053–1058 (2018).
Lotfollahi, M., Wolf, F. A. & Theis, F. L. scGen predicts single-cell perturbation responses. Nat. Methods 16, 715–721 (2019).
Yang, K. D. et al. Predicting cell lineages using autoencoders and optimal transport. PLoS Comput. Biol. 16, e1007828 (2020).
Villani, C. Optimal transport: Old and New Vol. 338 (Springer, 2009).
Lavenant, H., Zhang, S., Kim, Y.-H. & Schiebinger, G. Towards a mathematical theory of trajectory inference. Preprint at https://arxiv.org/abs/2102.09204 (2021).
Schiebinger, G. et al. Optimal-transport analysis of single-cell gene expression identifies developmental trajectories in reprogramming. Cell 176, 928–943 (2019).
Makkuva, A., Taghvaei, M. A., Oh, S. & Lee, J. Optimal transport mapping via input convex neural networks. In Proc. 37th International Conference on Machine Learning (eds Daumé III, H. & Singh, A.) 6672–6681 (PMLR, 2020).
Jacob, L., She, J., Almahairi, A., Rajeswar, S. & Courville, A. Adversarial computation of optimal transport maps. Preprint at https://arxiv.org/abs/1906.09691 (2019).
Yang, K. D. & Uhler, C. Scalable unbalanced optimal transport using generative adversarial networks. In International Conference on Learning Representations (ICLR, 2019).
Prasad, N., Yang, K. & Uhler, C. Optimal Transport using GANs for Lineage Tissues. Preprint at https://arxiv.org/abs/2007.12098 (2020).
Amos, B., Xu, L. & Kolter, J. Z. Input convex neural networks. In Proc. 34th International Conference on Machine Learning (eds Precup, D. & Teh, Y. W.) 146–155 (PMLR, 2017).
Villani, C. Topics in Optimal Transportation Vol. 58 (American Mathematical Soc., 2003).
Santambrogio, F. Optimal transport for applied mathematicians. Birk?user 55, 94 (2015).
Cang, Z. & Nie, Q. Inferring spatial and signaling relationships between cells from single cell transcriptomic data. Nat. Commun. 11, 2084 (2020).
Demetci, P., Santorella, R., Sandstede, B., Noble, W. S. & Singh, R. SCOT: single-cell multi-omics alignment with optimal transport. J. Comput. Biol. 29, 3–18 (2022).
Huizing, G.-J., Peyré, G. & Cantini, L. Optimal transport improves cell–cell similarity inference in single-cell omics data. Bioinformatics 38, 2169–2177 (2022).
Zhang, S., Afanassiev, A., Greenstreet, L., Matsumoto, T. & Schiebinger, G. Optimal transport analysis reveals trajectories in steady-state systems. PLoS Comput. Biol. 17, e1009466 (2021).
Korotin, A., Egiazarian, V., Asadulaev, M. A., Safin, A. & Burnaev, E. Wasserstein-2 generative networks. Preprint at https://arxiv.org/abs/1909.13082 (2021).
Raaijmakers, M. I. et al. A new live-cell biobank workflow efficiently recovers heterogeneous melanoma cells from native biopsies. Exp. Dermatol. 24, 377–380 (2015).
Srivatsan, S. R. et al. Massively multiplex chemical transcriptomics at single-cell resolution. Science 367, 45–51 (2020).
Chen, S. et al. (Unfinished reference, original text truncated).
Gretton, A. et al. A kernel two-sample test. J. Mach. Learn. Res. 13, 723–773 (2012).
McInnes, L., Healy, J. & Melville, J. UMAP: Uniform Manifold Approximation and Projection for dimension reduction. Preprint at https://arxiv.org/abs/1802.03426 (2018).
Smith, M. L. et al. (Unfinished reference, original text truncated).
(Unfinished reference, original text truncated, associated with MEK/PI3K pathway decoupling).
(Unfinished reference, original text truncated, associated with MEKi resistance mechanisms).
Kang, H. M. et al. Multiplexed droplet single-cell RNA-seq of a human immune cell atlas. Preprint at https://doi.org/10.1101/229285 (2017).
(Unfinished reference, associated with lupus and interferonopathies).
(Unfinished reference, associated with autoimmune disease marker genes).
(Unfinished reference, associated with interferon-β responses).
(Unfinished reference, associated with interferon pathway targets).
(Unfinished reference, associated with lupus therapy).
Peidli, S. et al. (Unfinished reference, associated with glioblastoma cohort).
Hagai, T. et al. (Unfinished reference, associated with cross-species LPS responses).
Weinreb, C. et al. Lineage tracing reveals fate plasticity of mammalian nephron progenitors. Nature 553, 538–542 (2018).
(Unfinished reference, associated with pathway rewiring).
Bunne, C. et al. (Unfinished reference, associated with context-conditioned neural OT).
(Unfinished reference, associated with stochastic cell-fate decisions).
(Unfinished reference, associated with probabilistic cell-fate modeling).
(Unfinished reference, associated with OT-stochastic difference equations).
Somnath, V. et al. (Unfinished reference, associated with aligned dataset OT).
Monge, G. Mémoire sur la théorie des déblais et des remblais. Histoire de l’Académie Royale des Sciences 666–704 (1781).
Kantorovich, L. On the transfer of masses (in Russian). In Doklady Akademii Nauk, vol. 37 (1942).
Cuturi, M. Sinkhorn Distances: Lightspeed Computation of Optimal Transport. Adv. Neural Inf. Process. Syst. (2013).
Chen, Y., Shi, Y. & Zhang, B. Optimal Control Via Neural Networks: A Convex Approach. International Conference on Learning Representations (2019).
Huang, C.-W., Chen, R. T. Q., Tsirigotis, C. & Courville, A. Convex Potential Flows: Universal Probability Distributions with Optimal Transport and Convex Optimization. International Conference on Learning Representations (2021).
Bunne, C., Meng-Papaxanthos, L., Krause, A. & Cuturi, M. Proximal Optimal Transport Modeling of Population Dynamics. International Conference on Artificial Intelligence and Statistics (2022).
Alvarez-Melis, D., Schiff, Y. & Mroueh, Y. Optimizing functionals on the space of probabilities with input convex neural networks. Transact. Mach. Learn. Res. (2023).
Mokrov, P. et al. Large-Scale Wasserstein Gradient Flows. Adv. Neural Inf. Process. Syst. (2021).
Fan, J., Taghvaei, A. & Chen, Y. Scalable Computations of Wasserstein Barycenter via Input Convex Neural Networks. International Conference on Machine Learning (2021).
Knott, M. & Smith, C. S. On the optimal mapping of distributions. J. Optim. Theory Appl. 43, 39–49 (1984).
Brenier, Y. Polar factorization and monotone rearrangement of vector-valued functions. Commun. Pure Appl. Math. 44, 375–417 (1991).
Taghvaei, A. & Jalali, A. 2-Wasserstein approximation via restricted convex potentials with application to improved training for GANs. arXiv Preprint arXiv:1902.07197 (2019).
Korotin, A. et al. Do Neural Optimal Transport Solvers Work? A Continuous Wasserstein-2 Benchmark. Transcript. Mach. Learn. Res. (2021).
Heydari, T. et al. IQCELL: A platform for predicting the effect of gene perturbations on developmental trajectories using single-cell RNA-seq data. PLOS Comput. Biol. 18, e1009907 (2022).
Tritschler, S. et al. Concepts and limitations for learning developmental trajectories from single cell genomics. Development 146, dev170506 (2019).
Weinreb, C., Wolock, S., Tusi, B. K., Socolovsky, M. & Klein, A. M. Fundamental limits on dynamic inference from single-cell snapshots. Proc. Natl. Acad. Sci. USA 115, E2467–E2476 (2018).
Lübeck, F. et al. Neural unbalanced optimal transport via cycle-consistent semi-couplings. arXiv preprint arXiv:2209.15621 (2022).
Chen, W. et al. Live-seq enables temporal transcriptomic recording of single cells. Nature 608, 733–740 (2022).
Shi, Y., De Bortoli, V., Campbell, A. & Doucet, A. Diffusion Schr?dinger Bridge Matching. arXiv preprint arXiv:2303.16852 (2023).
Tong, A. et al. Conditional flow matching: simulation-free dynamic optimal transport. arXiv preprint arXiv:2302.0042 (2023).
Carpenter, A. E. et al. CellProfiler: image analysis software for identifying and quantifying cell phenotypes. Genome Biol. 7, 1–11 (2006).
Snijder, B. et al. Single-cell analysis of population context advances RNAi screening at multiple levels. Mol. Syst. Biol. 8, 579 (2012).
Guizar-Sicairos, M., Thurman, S. T. & Fienup, J. R. Efficient subpixel image registration algorithms. Opt. Lett. 33, 156–158 (2008).
Stoeger, T., Battich, N., Herrmann, M. D., Yakimovich, Y. & Pelkmans, L. Computer vision for image-based transcriptomics. Methods 85, 44–53 (2015).
Van der Walt, S. et al. scikit-image: image processing in Python. PeerJ 2, e453 (2014).
Wolf, F. A., Angerer, P. & Theis, F. J. SCANPY: large-scale single-cell gene expression data analysis. Genome Biol. 19, 1–15 (2018).
Rybakov, S., Lotfollahi, M., Theis, F. J. & Wolf, F. A. Learning interpretable latent autoencoder representations with annotations of feature sets. bioRxiv (2020).
Peidli, S. et al. scPerturb: Information resource for harmonized single-cell perturbation data. bioRxiv (2022).
Kingma, D. P. & Ba, J. Adam: A Method for Stochastic Optimization. International Conference on Learning Representations (2014).
參考文獻可上下滑動查看
細胞動力學讀書會
細胞絕非孤立的單元,生命的智慧,如同蟻群的協作,涌現在細胞間復雜的相互作用之中。跨越臨界點,簡單規則便能催生全新的、穩定的結構與功能。
半個世紀以來,復雜系統科學為我們提供了洞見生命現象的全新工具箱。本期活動,我們將融合物理學、復雜科學與系統生物學,從Waddington景觀、自組織臨界,到反應-擴散模型與類器官實驗,繪制一幅理解細胞命運與群體動力學的連貫地圖。
本次讀書會由李輝、王維康、韋曉慧三位學者及王艷博士共同發起,并沿兩條主線展開:一是探討細胞命運、多穩態等理論核心;二是結合單細胞測序、時序推斷等方法,學習如何將靜態數據轉化為動態模型。
![]()
詳情請見:
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.