![]()
導(dǎo)語(yǔ)
“我們能在計(jì)算機(jī)里構(gòu)建一個(gè)細(xì)胞嗎?” 這一根本性問(wèn)題,正隨著人工智能和組學(xué)技術(shù)的進(jìn)步而迎來(lái)突破性機(jī)遇。最近,權(quán)威期刊Cell發(fā)表了一篇重磅綜述,深入探討了 “人工智能虛擬細(xì)胞”(AI Virtual Cell, AIVC) 這一前沿概念。這篇文章匯集了AI與生命科學(xué)領(lǐng)域的頂尖智慧。作者團(tuán)隊(duì)陣容非常強(qiáng)大,橫跨學(xué)術(shù)界(如斯坦福、哈佛 、科技巨頭(如谷歌研究院、微軟研究院)和生物技術(shù)行業(yè)(如基因泰克),并由陳-扎克伯格計(jì)劃 (CZI)的研究者聯(lián)合推動(dòng),共同為構(gòu)建“AI虛擬細(xì)胞”繪制藍(lán)圖。本文是對(duì)該綜述的翻譯。
集智俱樂(lè)部聯(lián)合李輝、王維康、韋曉慧三位學(xué)者及王艷博士共同發(fā)起,并沿兩條主線展開(kāi):一是探討細(xì)胞命運(yùn)、多穩(wěn)態(tài)等理論核心;二是結(jié)合單細(xì)胞測(cè)序、時(shí)序推斷等方法,學(xué)習(xí)如何將靜態(tài)數(shù)據(jù)轉(zhuǎn)化為動(dòng)態(tài)模型。讀書會(huì)將于2026年2月6日正式開(kāi)始,歡迎加入社群交流。
關(guān)鍵詞:細(xì)胞生物學(xué)、人工智能、機(jī)器學(xué)習(xí)、虛擬細(xì)胞
王昊丨作者
周莉|審校
![]()
論文題目:How to build the virtual cell with artificial intelligence: Priorities and opportunities 論文鏈接:https://www.cell.com/cell/fulltext/S0092-8674(24)01332-1 論文來(lái)源:Cell
目錄
摘要
引言
建立AIVC所面臨的重大挑戰(zhàn)
AIVCs的關(guān)鍵能力
構(gòu)建AIVC的方法
構(gòu)建AIVC的數(shù)據(jù)需求和要求
AIVC的模型評(píng)估和可解釋性
前景展望
細(xì)胞對(duì)于理解健康和疾病至關(guān)重要,但其作為生命最基本功能單位的復(fù)雜性,讓傳統(tǒng)建模方法在模擬其功能與行為時(shí)顯得力不從心。如今,我們有機(jī)會(huì)創(chuàng)建一個(gè)人工智能虛擬細(xì)胞(AIVC)——一個(gè)基于大型神經(jīng)網(wǎng)絡(luò)的多尺度、多模態(tài)模型 (a multi-scale, multi-modal large-neural-network-based model),能夠表征和模擬分子、細(xì)胞乃至組織在不同狀態(tài)下的行為。這種AIVC不僅是一種新的建模工具,更是一種全新的科學(xué)范式。
通過(guò)實(shí)現(xiàn)高保真度的仿真,AIVC有望讓科學(xué)家在虛擬空間進(jìn)行復(fù)雜的“計(jì)算機(jī)實(shí)驗(yàn)” (in silico experimentation),成為理解疾病發(fā)生、藥物反應(yīng)和細(xì)胞工程的強(qiáng)大工具,甚至將細(xì)胞重新定義為一種信息處理系統(tǒng)。然而,構(gòu)建AIVC是一項(xiàng)巨大的挑戰(zhàn),需要整合跨尺度、跨物種的多樣化數(shù)據(jù),并建立一個(gè)開(kāi)放協(xié)作的科學(xué)共同體。如同歷史上的“基因組計(jì)劃” (human genome project) 一樣,AIVC的提出標(biāo)志著一個(gè)重要的歷史關(guān)口,它不僅是一個(gè)學(xué)術(shù)愿景,更是一種面向未來(lái)的科學(xué)基礎(chǔ)設(shè)施。
展望未來(lái),虛擬細(xì)胞平臺(tái)或許會(huì)像顯微鏡一樣普及,幫助科學(xué)家高效地驗(yàn)證假設(shè)、設(shè)計(jì)實(shí)驗(yàn)。這篇綜述所描繪的,正是一幅關(guān)于未來(lái)生物學(xué)研究如何被深刻重塑的宣言。其最終目標(biāo)并非替代自然,而是為了與生命世界展開(kāi)更科學(xué)、高效的對(duì)話。
1. 背景
細(xì)胞,作為生命的基本單位,是一個(gè)極其復(fù)雜的實(shí)體,其性質(zhì)和行為挑戰(zhàn)著物理和計(jì)算建模的極限。每個(gè)細(xì)胞都是一個(gè)動(dòng)態(tài)的適應(yīng)性系統(tǒng),其復(fù)雜的行為從無(wú)數(shù)分子相互作用中涌現(xiàn)出來(lái)。某些方面對(duì)擾動(dòng)具有顯著的魯棒性,比如基因的缺失或用來(lái)自不同物種的同源基因替換。而其他方面則對(duì)看似微小的干擾都很敏感,比如點(diǎn)突變或外部因子,這些都可能使細(xì)胞陷入功能失調(diào)和疾病狀態(tài)。
為了理解細(xì)胞的功能,科學(xué)家們?cè)噲D構(gòu)建虛擬細(xì)胞模型(virtual cell models),以模擬、預(yù)測(cè)和調(diào)控細(xì)胞行為 [1–6]。現(xiàn)有的細(xì)胞模型通常基于規(guī)則(rule-based),將對(duì)潛在生物機(jī)制的假設(shè)與從觀測(cè)數(shù)據(jù)中擬合的參數(shù)相結(jié)合。這些模型往往依賴于明確定義的數(shù)學(xué)或計(jì)算方法,例如微分方程 [7–9]、隨機(jī)模擬 [10,11] 或基于智能體的模型 [12,13]。它們?cè)趶?fù)雜性上存在差異,涵蓋細(xì)胞生物學(xué)中多個(gè)明確的研究方向,如轉(zhuǎn)錄與翻譯 [14]、細(xì)胞骨架驅(qū)動(dòng)的細(xì)胞行為 [15,16]、生化網(wǎng)絡(luò) [17] 以及代謝通量 [18,19]。首個(gè)全細(xì)胞模型于 2012 年開(kāi)發(fā),其代表了生殖支原體(Mycobacterium genitalium)這一生物體中已知的全部 482 個(gè)基因及分子功能 [8]。自這項(xiàng)開(kāi)創(chuàng)性工作以來(lái),研究者們已開(kāi)發(fā)出全基因組模型,用以代表包括大腸桿菌在內(nèi)的其他細(xì)菌生物體 [8,20–22]。
盡管這些方法在生物系統(tǒng)建模中廣泛應(yīng)用,但迄今為止的方法都無(wú)法充分捕捉細(xì)菌和更復(fù)雜系統(tǒng)(如人類細(xì)胞)運(yùn)行的許多方面。 這些挑戰(zhàn)共同構(gòu)成了構(gòu)建虛擬細(xì)胞的重大障礙,體現(xiàn)在多個(gè)層面。 首先,在多尺度建模 (Multi-scale modeling)方面,細(xì)胞在時(shí)間和空間上跨越從原子、分子到細(xì)胞和組織的多個(gè)尺度運(yùn)行,其功能特性通過(guò)尺度間的非線性轉(zhuǎn)換而產(chǎn)生 。其次,細(xì)胞功能包含眾多相互作用且多樣化的過(guò)程 (Diverse processes with massive numbers of interacting components),如基因調(diào)控、代謝和信號(hào)轉(zhuǎn)導(dǎo)(transduction),每個(gè)過(guò)程都涉及大量處于動(dòng)態(tài)構(gòu)型中的生物分子種類 。最后,大多數(shù)細(xì)胞過(guò)程表現(xiàn)出高度的非線性動(dòng)力學(xué) (Nonlinear dynamics),輸入的微小變化可能導(dǎo)致輸出的復(fù)雜變化,這進(jìn)一步增加了建模的難度 。
科學(xué)技術(shù)中的兩次激動(dòng)人心的革命——人工智能革命和組學(xué)革命——使得直接從數(shù)據(jù)中學(xué)習(xí)構(gòu)建細(xì)胞模型成為可能。這兩次并行的革命為一個(gè)雄心勃勃的愿景提供了前所未有的機(jī)遇,即構(gòu)建 AI 虛擬細(xì)胞 (AIVC),這是一個(gè)基于大型神經(jīng)網(wǎng)絡(luò)的多尺度、多模態(tài)模型,能夠表征和模擬分子、細(xì)胞和組織在不同狀態(tài)下的行為(圖 1)。
在實(shí)驗(yàn)方面,測(cè)量技術(shù)通量的指數(shù)級(jí)增長(zhǎng)使得在不同細(xì)胞和組織系統(tǒng)內(nèi)部及之間收集了大量且不斷增長(zhǎng)的參考數(shù)據(jù)集 [23–25],在過(guò)去幾年中數(shù)據(jù)每 6 個(gè)月翻一番 [26],同時(shí)這些測(cè)量還能與系統(tǒng)性擾動(dòng)相結(jié)合[27–29]。在計(jì)算方面,人工智能技術(shù)的快速發(fā)展增強(qiáng)了我們直接從數(shù)據(jù)中學(xué)習(xí)模式和過(guò)程的能力,而無(wú)需明確的規(guī)則或人工標(biāo)注 [30,31]。這種建模范式已在生物分子領(lǐng)域得到成功應(yīng)用,例如,從序列預(yù)測(cè)三維 (3D) 分子結(jié)構(gòu)[32–34] 以及不同分子組分之間的相互作用 [35–38]。其中,Google DeepMind 的 AlphaFold 在該領(lǐng)域取得了突破性進(jìn)展。人工智能領(lǐng)域最新的建模方法提供了表征和推理工具,滿足了預(yù)測(cè)性 (predictive)、生成性 (generative) 和可查詢性 (queryable)這三個(gè)關(guān)鍵特性,這些都是推進(jìn)生物學(xué)研究和理解的關(guān)鍵功能。
基于這些特性,我們認(rèn)為現(xiàn)在已經(jīng)具備了開(kāi)發(fā)完全數(shù)據(jù)驅(qū)動(dòng)的基于神經(jīng)網(wǎng)絡(luò)的 AIVC 表征的方法,這可以通過(guò)實(shí)現(xiàn)快節(jié)奏的計(jì)算機(jī)模擬研究以及在計(jì)算方法和驗(yàn)證性濕實(shí)驗(yàn)室實(shí)驗(yàn)之間建立強(qiáng)大橋梁來(lái)加速生物醫(yī)學(xué)研究(圖 1)。
![]()
圖 1. AIVC 的能力
(A) AIVC 提供了一種通用表示 (universal representation, UR),可以跨物種和條件獲得細(xì)胞狀態(tài),并可從跨尺度 (分子、細(xì)胞和多細(xì)胞) 的不同數(shù)據(jù)模態(tài)中生成。
(B) AIVC 具備表示和預(yù)測(cè)細(xì)胞生物學(xué)特性的能力。這種通用性使該表示能夠作為參考基準(zhǔn),泛化到此前未觀察到的細(xì)胞狀態(tài),為未來(lái)的數(shù)據(jù)生成提供指導(dǎo)。由于該表示在不同模態(tài)間共享,其生成不受特定數(shù)據(jù)類型的限制,可作為跨模態(tài)統(tǒng)一分析的虛擬表示。AIVC 還能夠?qū)?xì)胞在不同狀態(tài)間轉(zhuǎn)換的動(dòng)力學(xué)過(guò)程進(jìn)行建模,無(wú)論是分化等自然過(guò)程、遺傳變異導(dǎo)致的轉(zhuǎn)換,還是通過(guò)工程擾動(dòng)人為引發(fā)的轉(zhuǎn)換。因此,AIVC 能夠?qū)崿F(xiàn)計(jì)算機(jī)模擬實(shí)驗(yàn),而這類實(shí)驗(yàn)在實(shí)驗(yàn)室中可能成本過(guò)高或根本無(wú)法開(kāi)展。
(C)AI虛擬細(xì)胞(AIVC)的最終價(jià)值,取決于其在不同層面與人類的有效互動(dòng)。對(duì)于個(gè)體科學(xué)家而言,其潛力必須通過(guò)開(kāi)放的許可證和普惠的計(jì)算資源來(lái)充分釋放,確保廣泛的可及性 。同時(shí),可以借助語(yǔ)言模型等中介層來(lái)增強(qiáng)其可解釋性,讓虛擬細(xì)胞能清晰地傳達(dá)其復(fù)雜的分析結(jié)果。在更廣泛的科學(xué)界層面,對(duì)AIVC的評(píng)估不應(yīng)局限于狹隘的基準(zhǔn)測(cè)試,而應(yīng)聚焦于其核心能力的驗(yàn)證 。一個(gè)開(kāi)放、活躍的社區(qū)生態(tài)對(duì)于模型的持續(xù)迭代、改進(jìn)和保持開(kāi)放性至關(guān)重要 。最終,在社會(huì)層面,AIVC必須將數(shù)據(jù)隱私和安全作為基石,通過(guò)強(qiáng)大的隱私保護(hù)措施來(lái)守護(hù)敏感信息,從而建立公眾信任。
2. 建立AIVC所面臨的重大挑戰(zhàn)
概述能力并設(shè)計(jì)評(píng)估框架
生物學(xué)領(lǐng)域中數(shù)量激增的基礎(chǔ)模型 (foundation models) 執(zhí)行著本文所概述的虛擬細(xì)胞能力的一個(gè)子集。鑒于這些方法的多樣性,定義 AIVC 的核心能力應(yīng)該是什么以及如何評(píng)估這些能力變得非常重要。對(duì)于每一種能力,都必須設(shè)計(jì)適當(dāng)?shù)闹笜?biāo),并收集全面的評(píng)估數(shù)據(jù)。模型的能力應(yīng)該在一般性能以及回答特定生物學(xué)問(wèn)題的能力方面進(jìn)行評(píng)估。持續(xù)改進(jìn)基準(zhǔn)測(cè)試策略與 AIVC 模型同步發(fā)展,并確保它們與生物學(xué)上有意義的目標(biāo)保持一致,這一點(diǎn)至關(guān)重要。隨著該領(lǐng)域在這些問(wèn)題上達(dá)成更好的共識(shí),合作機(jī)會(huì)將會(huì)出現(xiàn),生成虛擬細(xì)胞的速度也將加快。
在不同架構(gòu)的變化情境中建立自一致性
生物學(xué)極其復(fù)雜:它在不同尺度、不同環(huán)境中運(yùn)作,并通過(guò)不同模式進(jìn)行測(cè)量。AIVC 模型必須在所有這些維度上保持自洽性 (self-consistent) 。 具體來(lái)說(shuō),這種自洽性體現(xiàn)在兩個(gè)層面:跨物理尺度的一致性:模型的功能必須能在不同物理尺度間貫穿體現(xiàn)。例如,分子間的相互作用,無(wú)論是在測(cè)量其結(jié)合親和力 (binding affinity),還是在觀察其對(duì)基因表達(dá)、細(xì)胞間通訊或組織結(jié)構(gòu)的影響時(shí),都應(yīng)產(chǎn)生邏輯一致且相互吻合的效應(yīng)。以及跨數(shù)據(jù)模式的一致性:模型的預(yù)測(cè)結(jié)果應(yīng)當(dāng)獨(dú)立于其輸入和輸出的數(shù)據(jù)模式。這意味著,同一個(gè)生物實(shí)體,即使用不同的技術(shù)進(jìn)行分析,在AIVC中也應(yīng)被賦予統(tǒng)一的內(nèi)部表征。
平衡可解釋性和生物學(xué)效用
深度學(xué)習(xí)方法在生物學(xué)中應(yīng)用的一個(gè)一致趨勢(shì)是,在大型基礎(chǔ)模型興起的推動(dòng)下,模型性能提升與其日益不可解釋的 “黑盒” 特性之間存在隱性權(quán)衡。AIVC 模型最終將根據(jù)其擴(kuò)展我們對(duì)生物學(xué)理解的能力來(lái)評(píng)判,無(wú)論是通過(guò)為生物過(guò)程提供新穎見(jiàn)解,還是通過(guò)加速科學(xué)研究過(guò)程。
為實(shí)現(xiàn)這一目標(biāo),AIVC 模型必須做出高度準(zhǔn)確且校準(zhǔn)良好的預(yù)測(cè)來(lái)模擬生物學(xué),并且必須平衡可操作性與可解釋性之間的權(quán)衡。可操作的模型輸出是那些對(duì)設(shè)計(jì)經(jīng)濟(jì)高效的驗(yàn)證實(shí)驗(yàn)具有高效用的輸出,是初期實(shí)際應(yīng)用的關(guān)鍵。解釋模型預(yù)測(cè)存在多種方法,包括因果建模、稀疏特征化和反事實(shí)推理,這是一個(gè)高度活躍的研究領(lǐng)域。構(gòu)建直觀的界面,通過(guò)其他模型(如 AI 研究智能體)促進(jìn) AIVC 的研究和解釋,將進(jìn)一步提高下游效用。
構(gòu)建協(xié)作細(xì)胞建模框架
AIVC 的成功開(kāi)發(fā)需要跨學(xué)科合作。為此,我們展望未來(lái)的 AIVC 平臺(tái)將發(fā)展成為一個(gè)開(kāi)放、互聯(lián)的綜合性樞紐。一方面,它將作為科研中心,支持研究人員協(xié)作開(kāi)發(fā)細(xì)胞模型并進(jìn)行廣泛部署;另一方面,它也將承擔(dān)教育使命,為科研人員提供專業(yè)培訓(xùn),并為教育工作者、患者及社會(huì)公眾設(shè)計(jì)豐富的參與活動(dòng)。因此,投資于促進(jìn) AIVC 開(kāi)放協(xié)作開(kāi)發(fā)的基礎(chǔ)設(shè)施應(yīng)當(dāng)是高優(yōu)先級(jí)事項(xiàng)。
確保 AIVC 使所有人受益并促進(jìn)道德和負(fù)責(zé)任的使用
確保 AIVC 的開(kāi)發(fā)和應(yīng)用符合倫理標(biāo)準(zhǔn),促進(jìn)其負(fù)責(zé)任的使用至關(guān)重要。這包括制定明確的政策和指導(dǎo)方針,以確保所有相關(guān)方都能在透明和公正的環(huán)境中參與 AIVC 的研究和應(yīng)用。此外,必須加強(qiáng)對(duì) AIVC 技術(shù)的監(jiān)管,以防止?jié)撛诘臑E用和不當(dāng)使用,確保其在科學(xué)研究和社會(huì)應(yīng)用中的正當(dāng)性和有效性。
生成反映人類多樣性的大型開(kāi)放數(shù)據(jù)集
生成反映人類多樣性的大型開(kāi)放數(shù)據(jù)集是訓(xùn)練 AIVC 模型不可或缺的,這也構(gòu)成了一項(xiàng)重大挑戰(zhàn)。開(kāi)發(fā)者在構(gòu)建AIVC時(shí)必須極其謹(jǐn)慎地確保這些數(shù)據(jù)集得到道德和透明的使用,并制定策略來(lái)降低模型被虛假數(shù)據(jù)污染的風(fēng)險(xiǎn)。從一開(kāi)始就與倫理和監(jiān)管專家密切合作,對(duì)于建立新的監(jiān)管規(guī)范以促進(jìn) AIVC 的負(fù)責(zé)任使用至關(guān)重要。
了解不同數(shù)據(jù)類型的價(jià)值以優(yōu)先考慮大規(guī)模數(shù)據(jù)生成
人工智能虛擬細(xì)胞協(xié)作開(kāi)發(fā)的一個(gè)基本問(wèn)題是應(yīng)該收集哪些數(shù)據(jù)和模態(tài),以實(shí)現(xiàn)跨生物學(xué)背景和尺度的泛化。這些數(shù)據(jù)需要涵蓋不同物種、領(lǐng)域和模態(tài)的生物學(xué)廣度,代表生命的異質(zhì)性,同時(shí)保持足夠的深度以區(qū)分真實(shí)信號(hào)和噪聲。數(shù)據(jù)生成的一個(gè)關(guān)鍵方面是同時(shí)測(cè)量時(shí)間和物理尺度,同時(shí)允許對(duì)系統(tǒng)進(jìn)行擾動(dòng)。
3. AIVCs的關(guān)鍵能力
我們對(duì)AIVC的構(gòu)想是,它是一個(gè)能夠?qū)W習(xí)并模擬細(xì)胞及細(xì)胞系統(tǒng)在多變條件與情境下行為的模擬器 (learned simulator) 。這些情境包括分化狀態(tài)、擾動(dòng)、疾病狀態(tài)、隨機(jī)波動(dòng)和環(huán)境條件(圖 1)。 它必須能夠跨越不同的生物學(xué)尺度、時(shí)間維度和數(shù)據(jù)模式進(jìn)行工作,并最終幫助揭示細(xì)胞系統(tǒng)的“編程語(yǔ)言”,同時(shí)為工程化應(yīng)用提供一個(gè)可操作的接口。
具體而言,一個(gè)理想的AIVC需具備以下三項(xiàng)核心能力,以賦能研究人員:
(1) 創(chuàng)建通用表示 (Universal Representation, UR):能夠跨越物種、數(shù)據(jù)模式、數(shù)據(jù)集和具體情境(包括細(xì)胞類型、發(fā)育階段和外部條件),建立生物狀態(tài)的通用表示。
(2) 預(yù)測(cè)功能與機(jī)制:能夠預(yù)測(cè)細(xì)胞的功能、行為和動(dòng)態(tài)變化,并揭示其背后的潛在機(jī)制。
(3) 執(zhí)行計(jì)算機(jī)模擬實(shí)驗(yàn) (In silico experiments):能夠通過(guò)模擬實(shí)驗(yàn)來(lái)生成和檢驗(yàn)新的科學(xué)假設(shè),并指導(dǎo)后續(xù)的數(shù)據(jù)收集,從而高效地?cái)U(kuò)展虛擬細(xì)胞自身的能力 。
接下來(lái),我們將對(duì)這些關(guān)鍵能力進(jìn)行詳細(xì)闡述。
通用表示 (Universal representation, UR)
AIVC 將生物數(shù)據(jù)映射到通用表征空間 (UR spaces)(圖 1A),這不僅有助于洞察不同生物狀態(tài)間的共享特征,還能作為一個(gè)全面的參照基準(zhǔn) 。這些 UR 應(yīng)能整合分子、細(xì)胞和多細(xì)胞這三個(gè)物理尺度,并容納來(lái)自任何相關(guān)數(shù)據(jù)模式和背景的信息 。這種整合能力使研究人員可以在 AIVC 框架內(nèi),利用其豐富的存量生物學(xué)知識(shí)來(lái)補(bǔ)充新數(shù)據(jù),從而彌合不同數(shù)據(jù)集之間的鴻溝。至關(guān)重要的是,這種多層次的表示應(yīng)能泛化 (generalize) 到訓(xùn)練數(shù)據(jù)中未曾出現(xiàn)過(guò)的新?tīng)顟B(tài)。這種涌現(xiàn)能力 (emergent capability) 將解鎖對(duì)全新生物學(xué)狀態(tài)的發(fā)現(xiàn),這些狀態(tài)可能從未被直接觀察到,甚至在自然界中本不存在 。例如,AIVC 通過(guò)學(xué)習(xí)巨噬細(xì)胞的炎癥狀態(tài),或許能預(yù)測(cè)出小膠質(zhì)細(xì)胞中一種前所未知的炎癥狀態(tài)。此外,AIVC 還應(yīng)能預(yù)測(cè)由干預(yù)措施(或?yàn)檫_(dá)到特定狀態(tài)所需的干預(yù)措施)所產(chǎn)生的新?tīng)顟B(tài),這將為細(xì)胞工程和合成生物學(xué)領(lǐng)域的下游應(yīng)用提供廣闊的可能性。
預(yù)測(cè)細(xì)胞行為和理解機(jī)制 (Predicting cell behavior and understanding mechanisms)
AIVC的一項(xiàng)決定性功能 (defining function) 是其建模細(xì)胞響應(yīng)和動(dòng)力學(xué)的能力 。通過(guò)在覆蓋不同情境和尺度的大量快照式、時(shí)間分辨、干預(yù)性和非干預(yù)性數(shù)據(jù)集上進(jìn)行訓(xùn)練,AIVC 可以深入理解在自然或工程信號(hào)(如化學(xué)、遺傳擾動(dòng)及其組合)驅(qū)動(dòng)下發(fā)生的分子、細(xì)胞和組織層面的動(dòng)力學(xué)過(guò)程 。AIVC應(yīng)能預(yù)測(cè)那些在實(shí)驗(yàn)室中從未測(cè)試過(guò)的擾動(dòng)所產(chǎn)生的響應(yīng),并能考慮到擾動(dòng)發(fā)生時(shí)特定細(xì)胞環(huán)境的特征。
同時(shí),AIVC 也應(yīng)能模擬細(xì)胞狀態(tài)隨時(shí)間的演變,以及由此產(chǎn)生的多細(xì)胞空間布局 。通過(guò)對(duì)細(xì)胞整體狀態(tài)的瞬時(shí)特性和持續(xù)變化的建模,AIVC 可以揭示在發(fā)育、穩(wěn)態(tài)維持、疾病發(fā)生與發(fā)展等多樣化動(dòng)態(tài)過(guò)程中,此前未被研究過(guò)的演化軌跡 。
另一個(gè)關(guān)鍵挑戰(zhàn)是理解這些表型和軌跡背后的分子機(jī)制 。通過(guò)模擬不同干預(yù)措施的效果,AIVC 可以提出潛在的因果因素 。盡管僅憑計(jì)算不一定能完全揭示因果關(guān)系,但AIVC 有潛力縮小可能假設(shè)的空間 (reduce the space of possible hypotheses) 。它能提出與不同表型相關(guān)的潛在因果因子,并給出相應(yīng)的不確定性程度,從而讓科學(xué)家能更有針對(duì)性地通過(guò)實(shí)驗(yàn)進(jìn)行驗(yàn)證 。
計(jì)算機(jī)模擬實(shí)驗(yàn)和指導(dǎo)數(shù)據(jù)生成
在現(xiàn)實(shí)應(yīng)用中,AIVC 的另一項(xiàng)決定性功能是其指導(dǎo)數(shù)據(jù)生成和實(shí)驗(yàn)設(shè)計(jì)的能力 。研究人員應(yīng)能通過(guò)當(dāng)前實(shí)驗(yàn)室實(shí)驗(yàn)的計(jì)算孿生體 (computational twins)——在此我們稱之為虛擬儀器 (virtual instruments, VIs)——來(lái)查詢 AIVC 。例如,虛擬實(shí)驗(yàn)可以模擬那些難以在體外培養(yǎng)的細(xì)胞類型的實(shí)驗(yàn),或者從低成本測(cè)量(如無(wú)標(biāo)記成像)中推斷出昂貴的讀數(shù)(如單細(xì)胞轉(zhuǎn)錄組) 。虛擬實(shí)驗(yàn)還能以實(shí)驗(yàn)室無(wú)法企及的規(guī)模篩選海量的潛在擾動(dòng)源,這在面對(duì)組合擾動(dòng)的指數(shù)級(jí)搜索空間時(shí),顯得尤為寶貴。
AIVC 將引領(lǐng)一種設(shè)計(jì)生物實(shí)驗(yàn)的新范式 。在此范式中,AIVC不僅能設(shè)計(jì)實(shí)驗(yàn)來(lái)驗(yàn)證特定的科學(xué)假設(shè),還能設(shè)計(jì)實(shí)驗(yàn)來(lái)增強(qiáng)自身的能力 。AIVC能為其預(yù)測(cè)分配置信度值,從而實(shí)現(xiàn)交互式查詢,引導(dǎo)實(shí)驗(yàn)者為低置信度區(qū)域生成最有效的數(shù)據(jù)以進(jìn)行模型優(yōu)化 。通過(guò)擴(kuò)展為一個(gè)主動(dòng)、迭代的實(shí)驗(yàn)室在環(huán)”(lab-in-the-loop)流程, AIVC 的性能將得到高效且有針對(duì)性的提升 。最終,AIVC甚至可能能夠識(shí)別出自身在生物學(xué)理解上的關(guān)鍵空白,并提出填補(bǔ)這些空白的最有效路徑 。
4. 構(gòu)建AIVC的方法
我們?cè)O(shè)想 AIVC 是一個(gè)綜合的 AI 框架,由幾個(gè)相互連接的基礎(chǔ)模型 (foundation models) 組成,這些模型在日益復(fù)雜的組織層次上表示動(dòng)態(tài)生物系統(tǒng)——從分子到細(xì)胞、組織及更高層次。
我們的方法有兩個(gè)主要組成部分:
通用多模態(tài)多尺度生物狀態(tài)表征(UR) (a universal multi-modal multi-scale biological state representation)
一組 VI (virtual instruments, VIs) ——即操作或解碼這些表征的神經(jīng)網(wǎng)絡(luò)。
盡管可能存在構(gòu)建 AIVC 的其他方法,但我們相信這種方法將提供一個(gè)可以協(xié)作和開(kāi)放方式的擴(kuò)展支架。
4.1 通用表示(UR)
UR 是由 AIVC 基礎(chǔ)模型產(chǎn)生的嵌入 (embedding),它將高維、多尺度、多模態(tài)的生物數(shù)據(jù)轉(zhuǎn)換為能保留有意義關(guān)系和模式的數(shù)值表示。AIVC 通過(guò)表示以下三個(gè)不同的物理尺度 (physical scales) 來(lái)捕獲細(xì)胞生物學(xué):
分子尺度 (Molecular scale):?jiǎn)蝹€(gè)細(xì)胞內(nèi)發(fā)現(xiàn)的分子及其結(jié)構(gòu);
細(xì)胞尺度 (Cellular scale):作為這些相互作用分子和結(jié)構(gòu)的空間集合的單個(gè)細(xì)胞;
組織尺度 (Multicellular scale):?jiǎn)蝹€(gè)細(xì)胞如何在組織中彼此相互作用以及與非細(xì)胞環(huán)境相互作用。
這三個(gè)尺度中的每一個(gè)都由一個(gè)獨(dú)特的 UR 表示,并建立在前一層生成的抽象之上,從而連接不同的尺度。
4.2 虛擬儀器(VI)
在 UR 的背景下,VI 是以 UR 為輸入并產(chǎn)生期望輸出的神經(jīng)網(wǎng)絡(luò)。我們描述了兩種類型的 VI:
解碼器 VI(Decoder VI)
輸入:UR
輸出:人類可理解的結(jié)果,例如細(xì)胞類型標(biāo)簽或合成顯微鏡圖像。
操控器 VI(Manipulator VI)
輸入:UR
輸出:另一個(gè) UR,例如擾動(dòng)后改變的細(xì)胞狀態(tài)。
由于這些 VI 在相同的表示上運(yùn)行,它們可以在不同的用例、實(shí)驗(yàn)和數(shù)據(jù)集之間共享和復(fù)用。 因此,我們?cè)O(shè)想任何科學(xué)家都能夠在 UR 的基礎(chǔ)上構(gòu)建 VI 并與社區(qū)共享。 此外,構(gòu)建與真實(shí)儀器(如顯微鏡)高度相似的 VI,可能促進(jìn)特定儀器的實(shí)驗(yàn)室閉環(huán)系統(tǒng)的發(fā)展。
4.3 跨物理尺度構(gòu)建 UR
每個(gè)表征普遍適用于特定類別的生物實(shí)體。這種抽象使虛擬細(xì)胞能夠在這個(gè)通用框架實(shí)現(xiàn)無(wú)縫演進(jìn)以及整合新數(shù)據(jù),無(wú)論是來(lái)自新模態(tài)還是來(lái)自分布外來(lái)源的數(shù)據(jù)。
![]()
圖2. AIVC 將是一個(gè) 多尺度基礎(chǔ)模型,在每個(gè)物理尺度上學(xué)習(xí)生物實(shí)體的不同表征(圖 2C)。這些表征可以聚合在一起并轉(zhuǎn)換,以產(chǎn)生下一個(gè)更高物理尺度的表征。并形成一種遞歸架構(gòu)模式,從單個(gè)分子水平應(yīng)用到整個(gè)組織和器官尺度,使模型在不同生物尺度間保持一致性(圖 2A)。
4.4 構(gòu)建 AIVC 的人工智能方法
AIVC 將整合多種多樣的神經(jīng)網(wǎng)絡(luò)架構(gòu)。盡管這些架構(gòu)并非專為生物學(xué)應(yīng)用設(shè)計(jì),但它們?cè)谂c特定的生物模式和數(shù)據(jù)特性(inductive biases,歸納偏置)相匹配時(shí),已展現(xiàn)出各自的優(yōu)勢(shì)。許多情況下,這些架構(gòu)可以相互替代,因此需要根據(jù)它們?cè)跍?zhǔn)確性、速度和通用性方面的表現(xiàn)進(jìn)行權(quán)衡取舍。此外,研究社區(qū)正積極開(kāi)發(fā)專門針對(duì)(大型)生物數(shù)據(jù)集特征量身定制的 AI 架構(gòu)。
![]()
圖3. 構(gòu)建 AIVC 的人工智能方法之Transformer
Transformer神經(jīng)網(wǎng)絡(luò) (Transformer neural network):Transformer 神經(jīng)網(wǎng)絡(luò) [30] 由多個(gè) Transformer 層組成,每個(gè) Transformer 層都采用一系列標(biāo)記(離散的信息片段,如單詞、RNA 分子或基因表示)作為輸入——第一層的初始標(biāo)記和后續(xù)層的前一層輸出。
在每一層中,標(biāo)記使用自注意力來(lái)集成來(lái)自其他標(biāo)記的上下文,增強(qiáng)自己的表示,然后通過(guò)前饋網(wǎng)絡(luò)進(jìn)行處理。這種架構(gòu)從根本上只需要標(biāo)記集合,可以很好地適應(yīng)各種應(yīng)用程序和用例。
默認(rèn)情況下,傳遞給 Transformer 的標(biāo)記集合沒(méi)有任何排序。此外,自注意力機(jī)制是 Transformer 成功的核心,可以被視為一種強(qiáng)烈的生物歸納偏差。例如,在通過(guò) scRNA-seq 檢測(cè)到的 RNA 分子來(lái)表示細(xì)胞時(shí),每個(gè) RNA 分子(表示為標(biāo)記)與其他 RNA 分子相互作用,通過(guò)自注意力模擬基因相互作用 [30]。使用基因的數(shù)字表示定制輸入標(biāo)記進(jìn)一步允許集成從單個(gè)基因到整個(gè)細(xì)胞的不同生物數(shù)據(jù)尺度 [59, 60]。
此外,將位置編碼引入標(biāo)記使 Transformer 能夠通過(guò)合并特定于序列的依賴關(guān)系來(lái)處理序列(例如自然語(yǔ)言 [30] 或生物序列如 DNA [48,142])。這種方法在掩碼語(yǔ)言建模等應(yīng)用中至關(guān)重要,其中模型預(yù)測(cè)序列中缺失的標(biāo)記,從而增強(qiáng)其對(duì)數(shù)據(jù)中上下文關(guān)系的理解。
創(chuàng)新不斷完善 Transformer,提高其處理更長(zhǎng)序列的能力并提高效率。例如,狀態(tài)空間模型等進(jìn)步能夠生成廣泛的 DNA 序列 [51]。

圖4.構(gòu)建 AIVC 的人工智能方法之CNN
卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Network, CNN):
CNN 是一種深度學(xué)習(xí)模型,主要用于分析圖像 [73,74]。它由多個(gè)層組成,通過(guò)反向傳播自動(dòng)自適應(yīng)地學(xué)習(xí)特征的空間層次結(jié)構(gòu)。卷積層、池化層和全連接層協(xié)同作用,從輸入數(shù)據(jù)中提取特征并做出決策。
在生物學(xué)領(lǐng)域,CNN 已被證明對(duì)于涉及圖像數(shù)據(jù)的任務(wù)具有無(wú)價(jià)的價(jià)值。例如:
細(xì)胞和組織的顯微鏡圖像模式識(shí)別;
多重成像(同時(shí)標(biāo)記和可視化多個(gè)目標(biāo)) [143,144];
臨床病理學(xué)中的 H&E 染色組織切片分析 [145];
活細(xì)胞成像 (live-cell imaging) 中用于跟蹤細(xì)胞內(nèi)或單分子隨時(shí)間的動(dòng)態(tài)變化 [146]。
除了傳統(tǒng)的圖像處理,CNN 還可用于 DNA 等序列數(shù)據(jù)的模式識(shí)別 [147]。盡管 CNN 具有廣泛實(shí)用性,但在一些任務(wù)中正逐漸被視覺(jué) Transformer 補(bǔ)充或取代 [72]。
![]()
圖5.構(gòu)建 AIVC 的人工智能方法之Diffusion模型
擴(kuò)散模型 (Diffusion models):擴(kuò)散模型是一類生成式深度學(xué)習(xí)模型,能夠在多個(gè)領(lǐng)域生成高質(zhì)量、多樣化樣本 [148]。其工作原理是:逐漸將隨機(jī)噪聲分布轉(zhuǎn)化為結(jié)構(gòu)化輸出(圖像、文本、細(xì)胞狀態(tài)等)。
在擴(kuò)散模型架構(gòu)的基礎(chǔ)上,flow matching 等方法可以模擬隨時(shí)間演變的分布 [149],使其特別適合于動(dòng)態(tài)變化和時(shí)間進(jìn)展至關(guān)重要的生物學(xué)應(yīng)用。
例如,它們能夠生成細(xì)胞在時(shí)間和空間上的發(fā)育軌跡,或預(yù)測(cè)生物系統(tǒng)對(duì)治療的反應(yīng) [87]。擴(kuò)散與 flow matching 模型結(jié)合,為高維復(fù)雜生物數(shù)據(jù)的建模提供了強(qiáng)大工具。
![]()
圖6.構(gòu)建 AIVC 的人工智能方法之GNN
圖神經(jīng)網(wǎng)絡(luò) (Graph Neural Network, GNN):是一類可以對(duì)圖數(shù)據(jù)進(jìn)行建模的架構(gòu) [150]。圖由節(jié)點(diǎn)和邊組成,是許多生物系統(tǒng)的自然表示:
蛋白質(zhì)結(jié)構(gòu):殘基作為節(jié)點(diǎn),化學(xué)鍵作為邊 [151];
組織結(jié)構(gòu):細(xì)胞作為節(jié)點(diǎn),相鄰細(xì)胞通過(guò)邊表示物理或化學(xué)連接 [152, 153]。
5. 構(gòu)建AIVC的數(shù)據(jù)需求和要求
AIVC 的一個(gè)關(guān)鍵考慮因素是必須收集哪些數(shù)據(jù)集和模態(tài)來(lái)實(shí)現(xiàn)其有效構(gòu)建。與傳統(tǒng)的實(shí)驗(yàn)設(shè)計(jì)不同,傳統(tǒng)實(shí)驗(yàn)設(shè)計(jì)中數(shù)據(jù)是為了測(cè)試特定的科學(xué)假設(shè)而生成的,而用于訓(xùn)練 AIVC 的數(shù)據(jù)收集應(yīng)該專注于確保 AIVC 所期望的廣泛適用性和通用性。為了實(shí)現(xiàn)這些目標(biāo),數(shù)據(jù)理想情況下應(yīng)該跨越不同的領(lǐng)域和模態(tài),包含生物變異性的異質(zhì)性和多樣性,并使模型能夠區(qū)分技術(shù)噪聲、生物變異和生理差異。
數(shù)據(jù)生成需要同時(shí)探索時(shí)間和物理尺度,同時(shí)允許系統(tǒng)擾動(dòng)。在這里,經(jīng)典成像技術(shù) [65, 100, 101] 包括活細(xì)胞成像,以及更新的結(jié)構(gòu)成像技術(shù),如冷凍電子斷層掃描 (cryoelectron tomography) 和軟X射線斷層掃描 (soft X-ray tomography) [66, 102, 103],以及新穎的空間組學(xué)技術(shù) (spatial omics technologies) [104, 105],為跨尺度建模生物分子和功能提供了機(jī)會(huì)。此外,生物過(guò)程跨越了巨大的時(shí)間尺度范圍,從皮秒級(jí)的最快反應(yīng)到持續(xù)數(shù)小時(shí)至一天的細(xì)胞分裂,再到歷時(shí)數(shù)年的腫瘤發(fā)展,以及持續(xù)數(shù)十年的神經(jīng)退行性變化。最近構(gòu)建的通用細(xì)胞圖譜 [101, 106] 可能成為建模較長(zhǎng)時(shí)間尺度上細(xì)胞行為(如組織形成)的強(qiáng)大資源。需要新的方法來(lái)構(gòu)建可比較的數(shù)據(jù)集,以捕獲細(xì)胞在較短時(shí)間尺度上的行為,例如通過(guò)活細(xì)胞成像等方法。
除了分子測(cè)量外,數(shù)據(jù)收集的一個(gè)重要方面將是測(cè)量生物物理和生物化學(xué)細(xì)胞特性,為 AIVC 提供物理和化學(xué)現(xiàn)實(shí)主義的邊界。
AIVC 發(fā)展的另一個(gè)重要驅(qū)動(dòng)力將是多模態(tài)數(shù)據(jù)集 (multi-modal datasets) 。例如,連接分子和空間尺度的數(shù)據(jù)集,如單細(xì)胞轉(zhuǎn)錄組學(xué)數(shù)據(jù)結(jié)合組織學(xué),以了解細(xì)胞如何相互作用以及哪些分子特征支撐著專門空間生態(tài)位的形成 [107]。需要進(jìn)一步的技術(shù)發(fā)展來(lái)收集多模態(tài)數(shù)據(jù),以捕捉分子特征、細(xì)胞行為、細(xì)胞調(diào)控和組織之間的關(guān)系。
盡管虛擬細(xì)胞建模的核心興趣將集中在人類數(shù)據(jù)集上,目的是理解疾病并幫助開(kāi)發(fā)新型治療方法,但人類數(shù)據(jù)集在我們進(jìn)行體內(nèi)對(duì)照實(shí)驗(yàn)和擾動(dòng)的能力方面是有限的。
在此,3D 組織生物學(xué)領(lǐng)域(包括類器官等培養(yǎng)系統(tǒng))正逐漸興起,成為一種在 3D 環(huán)境中研究復(fù)雜組織結(jié)構(gòu)和功能[108] 的工具。它在 3D 環(huán)境中進(jìn)行研究,同時(shí)允許對(duì)系統(tǒng)進(jìn)行擾動(dòng)。另一個(gè)超越這一限制的關(guān)鍵途徑將是對(duì)演化歷史的物種進(jìn)行多樣化的全機(jī)體譜分析,涵蓋各種擾動(dòng)和不同條件 [109, 110, 111]。理想情況下,大型數(shù)據(jù)集可以在所有三個(gè)物理尺度上被收集,這將使 AIVC 的應(yīng)用能夠從疾病研究擴(kuò)展到工業(yè)生物技術(shù)、農(nóng)業(yè)生物技術(shù)、傳染病和氣候變化等更廣闊的領(lǐng)域。然而,基于目前在細(xì)胞和多細(xì)胞尺度上的數(shù)據(jù)收集趨勢(shì),對(duì)動(dòng)物細(xì)胞進(jìn)行建模仍然是最現(xiàn)實(shí)的選擇。
最后,生物數(shù)據(jù)生成的一個(gè)關(guān)鍵方面將是對(duì)組合空間 (combinatorial spaces)的探索:生物空間通常是高維的,枚舉其變體在一般情況下是難以處理的,例如,當(dāng)考慮基因組的所有可能變體時(shí)。即使是少數(shù)實(shí)體的組合,如枚舉擾動(dòng)的成對(duì)或成組情況 [47, 90],實(shí)驗(yàn)設(shè)計(jì)也變得極其具有挑戰(zhàn)性。鑒于組合的可能性會(huì)迅速膨脹,遠(yuǎn)超實(shí)驗(yàn)或計(jì)算的可行范圍,因此必須開(kāi)發(fā)探索這些可能性新方法。
構(gòu)建 AIVC 需要多少數(shù)據(jù)?
原始生物數(shù)據(jù)的規(guī)模是不可否認(rèn)的,但即使是一個(gè)人體細(xì)胞系統(tǒng)的純粹標(biāo)稱規(guī)模也同樣龐大,這使得第一性原理估算變得困難。例如,生物序列數(shù)據(jù)的短讀長(zhǎng)存檔擁有超過(guò) 14 petabytes的信息 [112],這比訓(xùn)練 ChatGPT 所用的數(shù)據(jù)集大 1000 多倍 [113]。如果用于訓(xùn)練,這些數(shù)據(jù)的很大一部分可能是冗余的或具有遞減收益,因此必須徹底研究模型性能的規(guī)模法則。
除了數(shù)據(jù)規(guī)模外,數(shù)據(jù)的多樣性和質(zhì)量對(duì)確保模型性能至關(guān)重要 [114]。來(lái)自人類和模式生物(如小鼠和大腸桿菌)的數(shù)據(jù)在序列和文獻(xiàn)數(shù)據(jù)庫(kù)中的代表性不均等,當(dāng)用于訓(xùn)練時(shí),會(huì)編碼強(qiáng)烈的物種偏差 [114]。其他偏差,例如在性別、特定疾病或人類祖先群體方面的偏差,也可能降低 AIVC 模型的影響力 [115]。
盡管數(shù)據(jù)方面需要付出努力,但驅(qū)動(dòng) AIVC 的 AI 模型必須設(shè)計(jì)得能夠承受并適應(yīng)這些挑戰(zhàn),即在整合各種來(lái)源和質(zhì)量的數(shù)據(jù)集的能力方面表現(xiàn)出穩(wěn)健性。考慮到實(shí)驗(yàn)室技術(shù)的快速發(fā)展(這使得無(wú)法在單一平臺(tái)上實(shí)現(xiàn)標(biāo)準(zhǔn)化)以及 AIVC 必須涵蓋的模式和細(xì)胞系統(tǒng)的廣泛多樣性,這一點(diǎn)至關(guān)重要。隨著虛擬細(xì)胞工作的成熟,開(kāi)發(fā)模型的科學(xué)家、生成實(shí)驗(yàn)數(shù)據(jù)的科學(xué)家和資助機(jī)構(gòu)之間的對(duì)話必須進(jìn)一步加強(qiáng)。
6. AIVC的模型評(píng)估和可解釋性
對(duì)于 AIVC 發(fā)展而言,更重要的問(wèn)題可能不是 "我們?nèi)绾螛?gòu)建它們?" 而是 "我們?nèi)绾谓?duì)其能力和準(zhǔn)確性的信任?" 為此,需要一個(gè)全面且適應(yīng)性強(qiáng)的基準(zhǔn)測(cè)試框架(benchmarking framework)。AIVC 需要在眾多生物學(xué)背任務(wù)中展現(xiàn)通用性 (generalizability) 。它必須考慮由于環(huán)境變化、感染、遺傳變異以及其他引起分布偏移 (distribution shifts) 的因素而不斷演變的動(dòng)態(tài)分布。 [116]。
即使在可推廣性之外,新興能力(比如那些與大語(yǔ)言模型 (Large Language Models, LLMs) 相關(guān)的能力)也可能使 AIVC 模型能夠外推到真正的分布外數(shù)據(jù)。在生物學(xué)背景下,在評(píng)估過(guò)程中可能很難確定這個(gè)邊界是如何定義的。新分子、新細(xì)胞狀態(tài),甚至新物種都可能被認(rèn)為在訓(xùn)練分布內(nèi)。因此,對(duì)新數(shù)據(jù)的外推可能僅限于考慮設(shè)計(jì)自然界中不存在的生物實(shí)體。
這種評(píng)估類型已經(jīng)在分子設(shè)計(jì)領(lǐng)域得到了考慮,因?yàn)檎Z(yǔ)言模型創(chuàng)建的蛋白質(zhì),如 esmGFP [52] 或 OpenCrispr1 [53],突出了它們與任何天然存在的對(duì)應(yīng)物之間的差異。如果在設(shè)計(jì)這些模型時(shí)以外推為目標(biāo),那么可能需要使用生物力學(xué)、基于物理或機(jī)制建模的額外歸納偏置、微調(diào)或偏好優(yōu)化。
對(duì) AIVC 的評(píng)估應(yīng)同時(shí)優(yōu)先考慮其泛化能力和發(fā)現(xiàn)新生物學(xué)規(guī)律的能力。泛化能力衡量了模型在未曾見(jiàn)過(guò)的語(yǔ)境中的表現(xiàn),例如面對(duì)新型細(xì)胞類型或不同的遺傳背景。可以通過(guò)跨模態(tài)重構(gòu)任務(wù)來(lái)評(píng)估這種能力,比如根據(jù)先前未見(jiàn)過(guò)的細(xì)胞形態(tài)來(lái)預(yù)測(cè)基因表達(dá),或是預(yù)測(cè)細(xì)胞狀態(tài)顯微圖像序列中的下一張圖像。評(píng)估泛化能力有助于建立人們對(duì) AIVC 模型的信心,相信它能夠捕捉核心生物學(xué)過(guò)程,并理解這些過(guò)程在不同情境下的變化。建立連接生物學(xué)尺度與模態(tài)的跨模態(tài)基準(zhǔn),對(duì)科研界而言是一項(xiàng)當(dāng)務(wù)之急,因?yàn)檫@些任務(wù)不僅在生物學(xué)上具有實(shí)用價(jià)值,而且定義明確。
最終,評(píng)判 AIVC 模型應(yīng)基于其能否開(kāi)辟理解生物學(xué)的新途徑。這樣的評(píng)估標(biāo)準(zhǔn)能夠確保模型開(kāi)發(fā)與生物學(xué)相關(guān)性保持一致。最初最有價(jià)值的成果,可能在于生成有意義且可驗(yàn)證的實(shí)驗(yàn)假設(shè)。為此,與實(shí)驗(yàn)可驗(yàn)證表型相關(guān)的驗(yàn)證數(shù)據(jù)集可能很適用,例如細(xì)胞的生長(zhǎng)速率、分子譜、被破壞的蛋白質(zhì)-蛋白質(zhì)相互作用,或轉(zhuǎn)錄因子結(jié)合。
隨著 AIVC 能力的提升,我們必須考慮單純的統(tǒng)計(jì)性能指標(biāo)是否足夠,或者可解釋性 (interpretability)和生物學(xué)因果關(guān)系 (biological causality)是否會(huì)成為其核心要求。
可解釋性和相互作用
在生物學(xué)中,科學(xué)發(fā)現(xiàn)的標(biāo)志之一是為觀察到的現(xiàn)象創(chuàng)建機(jī)制模型 (mechanistic models) 。在創(chuàng)建虛擬細(xì)胞時(shí),我們可能不得不放棄構(gòu)建完全機(jī)制模型的能力,轉(zhuǎn)而學(xué)習(xí)能夠從數(shù)據(jù)中泛化并預(yù)測(cè)超出觀察范圍的相互作用。然而,努力提高可解釋性仍然是可取的。
每個(gè) AIVC 預(yù)測(cè)都可以通過(guò)決定結(jié)果狀態(tài)的相應(yīng)多尺度相互作用來(lái)證實(shí)。例如,了解細(xì)胞亞系統(tǒng)或蛋白質(zhì)復(fù)合物在疾病組織中如何被破壞,可以幫助開(kāi)發(fā)治療干預(yù)措施 [118,119]。AIVC 的模塊化結(jié)構(gòu)將使研究人員能夠精確定位參與每個(gè)預(yù)測(cè)行為的特定基因、蛋白質(zhì)或分子過(guò)程。
大型模型布線中的模式也可以被利用來(lái)揭示組合生物學(xué)相互作用,例如蛋白質(zhì)之間的相互作用,這些相互作用可以投射到可解釋的空間中,而不限制原始模型的通用性。盡管 AIVC 的許多能力依賴于預(yù)測(cè)任務(wù),但生成機(jī)制假設(shè)可以為理解和進(jìn)一步探索 AIVC 的預(yù)測(cè)提供實(shí)驗(yàn)途徑,這對(duì)于 AIVC 的采用和使用至關(guān)重要。
最終,為 AIVC 構(gòu)建一個(gè)交互層 (interactive layer) 將是關(guān)鍵所在,這將使不同專業(yè)水平的研究人員能夠有效地理解和利用其預(yù)測(cè)結(jié)果。使用 LLMs 構(gòu)建的AI智能體 (AI agents) 可以作為虛擬研究助手,為非專業(yè)人員提供直觀的界面 [46,120]。利用它們對(duì)科學(xué)文獻(xiàn)的廣泛知識(shí),這些語(yǔ)言模型可以為 AIVC 做出的預(yù)測(cè)提供更深入的見(jiàn)解。
7. 前景展望
遺傳學(xué)和基因組學(xué)界已經(jīng)創(chuàng)建了大型參考數(shù)據(jù)集,如人類基因組計(jì)劃 (human genome project) [23]、HapMap [122]、癌癥基因組圖譜 (the Cancer Genome Atlas, TCGA) [123]、ENCODE [124]、基因型-組織表達(dá) (the Genotype-Tissue Expression, GTEx) 項(xiàng)目 [125]、人類蛋白質(zhì)圖譜 (the Human Protein Atlas, HPA) [64,126]、人類細(xì)胞圖譜 (the Human Cell Atlas, HCA) [24],以及越來(lái)越多的深度表型化、人群規(guī)模的生物樣本庫(kù)工作 [127]。得益于這些項(xiàng)目,現(xiàn)在有大量參考數(shù)據(jù)可用于訓(xùn)練機(jī)器學(xué)習(xí)模型。盡管這些努力將繼續(xù)發(fā)展,但它們也催化了一項(xiàng)新的并行工作:創(chuàng)建細(xì)胞生物學(xué)的虛擬仿真,這是一種新的科學(xué)探究過(guò)程。
因此,AIVC 有潛力徹底改變科學(xué)研究過(guò)程,在生物醫(yī)學(xué)研究、個(gè)性化醫(yī)療、藥物發(fā)現(xiàn)、細(xì)胞工程和可編程生物學(xué) (programmable biology) 領(lǐng)域帶來(lái)未來(lái)的突破。作為虛擬實(shí)驗(yàn)室 (virtual laboratory),AIVC 可以促進(jìn)計(jì)算機(jī)模擬實(shí)驗(yàn)數(shù)據(jù)與物理實(shí)驗(yàn)室結(jié)果之間的無(wú)縫對(duì)接。因此,我們期望 AIVC 能夠?yàn)樯镞^(guò)程提供更統(tǒng)一的視角,促進(jìn)科學(xué)家們?cè)谏飳W(xué)涌現(xiàn)特性如何產(chǎn)生這一問(wèn)題上達(dá)成共識(shí)。
通過(guò)連接計(jì)算機(jī)系統(tǒng)、現(xiàn)代生成式 AI 和 AI 智能體以及生物學(xué)的世界,AIVC 最終能夠讓科學(xué)家將細(xì)胞理解為信息處理系統(tǒng),并構(gòu)建生命的虛擬描述。隨著 AIVC 擴(kuò)展對(duì)細(xì)胞和分子系統(tǒng)的理解,它也將越來(lái)越多地允許我們對(duì)它們進(jìn)行編程并設(shè)計(jì)新穎的合成系統(tǒng)。AI 模型已經(jīng)被用于設(shè)計(jì)新的 CRISPR 酶 [53]、功能蛋白 [128],甚至整個(gè)原核生物基因組 [51]。細(xì)胞和基因組工程工具精度的快速進(jìn)步將加速這一轉(zhuǎn)變,AIVC 的不同實(shí)例化將在工程新的功能性生物學(xué)能力方面展開(kāi)競(jìng)爭(zhēng),就像在表示和模擬生物學(xué)方面的競(jìng)爭(zhēng)一樣激烈。
參考文獻(xiàn)
Slepchenko, B.M., Schaff, J.C., Macara, I., and Loew, L.M. (2003). Quan-titative cell biology with the Virtual Cell. Trends Cell Biol. 13, 570–576.
Johnson, G.T., Agmon, E., Akamatsu, M., Lundberg, E., Lyons, B.,Ouyang, W., Quintero-Carmona, O.A., Riel-Mehan, M., Rafelski, S.,and Horwitz, R. (2023). Building the next generation of virtual cells to un-derstand cellular biology. Biophys. J. 122, 3560–3569.
Marx, V. (2023). How to build a virtual embryo. Nat. Methods 20,1838–1843.
Goldberg, A.P., Szigeti, B., Chew, Y.H., Sekar, J.A., Roth, Y.D., and Karr,J.R. (2018). Emerging whole-cell modeling principles and methods. Curr.Opin. Biotechnol. 51, 97–102.
Georgouli, K., Yeom, J.-S., Blake, R.C., and Navid, A. (2023). Multi-scalemodels of whole cells: progress and challenges. Front. Cell Dev. Biol. 11,1260507.
Marucci, L., Barberis, M., Karr, J., Ray, O., Race, P.R., de Souza Andrade,M., Grierson, C., Hoffmann, S.A., Landon, S., Rech, E., et al. (2020). Com-puter-aided whole-cell design: Taking a holistic approach by integratingsynthetic with systems biology. Front. Bioeng. Biotechnol. 8, 942.
Lauffenburger, D.A., and Linderman, J.J. (1996). Receptors: models forbinding, trafficking, and signaling (Oxford University Press).
Karr, J.R., Sanghvi, J.C., Macklin, D.N., Gutschow, M.V., Jacobs, J.M.,Bolival, B., Assad-Garcia, N., Glass, J.I., and Covert, M.W. (2012). Awhole-cell computational model predicts phenotype from genotype.Cell 150, 389–401.
Mangan, S., and Alon, U. (2003). Structure and function of the feed-for-ward loop network motif. Proc. Natl. Acad. Sci. USA 100, 11980–11985.
Zopf, C.J., Quinn, K., Zeidman, J., and Maheshri, N. (2013). Cell-cycledependence of transcription dominates noise in gene expression.PLoS Comput. Biol. 9, e1003161.
Eling, N., Morgan, M.D., and Marioni, J.C. (2019). Challenges inmeasuring and understanding biological noise. Nat. Rev. Genet. 20,536–548.
Hellweger, F.L., Clegg, R.J., Clark, J.R., Plugge, C.M., and Kreft, J.-U.(2016). Advancing microbial sciences by individual-based modelling.Nat. Rev. Microbiol. 14, 461–471.
Gorochowski, T.E. (2016). Agent-based modelling in synthetic biology.Essays Biochem. 60, 325–336.
Thiele, I., Jamshidi, N., Fleming, R.M., and Palsson, B. (2009). Genome-scale reconstruction of Escherichia coli’s transcriptional and translationalmachinery: a knowledge base, its mathematical formulation, and its func-tional characterization. PLoS Comput. Biol. 5, e1000312.
Odell, G.M., and Foe, V.E. (2008). An agent-based model contrastsopposite effects of dynamic and stable microtubules on cleavage furrowpositioning. J. Cell Biol. 183, 471–483.
Popov, K., Komianos, J., and Papoian, G.A. (2016). MEDYAN: mechano-chemical simulations of contraction and polarity alignment in actomyosinnetworks. PLoS Comput. Biol. 12, e1004877.
Burke, P.E.P., Campos, C.B.L., Costa, L.D.F., and Quiles, M.G. (2020).M. G. A biochemical network modeling of a whole-cell. Sci. Rep.10, 13303.
Li, G., Liu, L., Du, W., and Cao, H. (2023). Local flux coordination andglobal gene expression regulation in metabolic modeling. Nat. Commun.14, 5700.
Fang, X., Lloyd, C.J., and Palsson, B.O. (2020). Reconstructing organ-isms in silico: genome-scale models and their emerging applications.Nat. Rev. Microbiol. 18, 731–743.
Stevens, J.A., Gru¨ newald, F., van Tilburg, P.A.M., Ko¨ nig, M., Gilbert,B.R., Brier, T.A., Thornburg, Z.R., Luthey-Schulten, Z., and Marrink,S.J. (2023). Molecular dynamics simulation of an entire cell. Front.Chem. 11, 1106495.
Maritan, M., Autin, L., Karr, J., Covert, M.W., Olson, A.J., and Goodsell,D.S. (2022). Building structural models of a whole mycoplasma cell.J. Mol. Biol. 434, 167351.
Ahn-Horst, T.A., Mille, L.S., Sun, G., Morrison, J.H., and Covert, M.W.(2022). An expanded whole-cell model of E. coli links cellular physiologywith mechanisms of growth rate control. npj Syst. Biol. Appl. 8, 30.
Venter, J.C., Adams, M.D., Myers, E.W., Li, P.W., Mural, R.J., Sutton,G.G., Smith, H.O., Yandell, M., Evans, C.A., Holt, R.A., et al. (2001).The sequence of the human genome. Science 291, 1304–1351.
Regev, A., Teichmann, S.A., Lander, E.S., Amit, I., Benoist, C., Birney, E.,Bodenmiller, B., Campbell, P., Carninci, P., Clatworthy, M., et al. (2017).The human cell atlas. eLife 6, e27041.
CZI Single-Cell Biology Program, Abdulla, S., Aevermann, B., Assis, P.,Badajoz, S., Bell, S.M., Bezzi, E., Batuhan, C., Jim, C., Chambers, S.,et al. (2023). CZ CELL3GENE discover: A single- cell data platform forscalable exploration, analysis and modeling of aggregated data. Preprintat bioRxiv.
Heimberg, G., Kuo, T., DePianto, D., Heigl, T., Nathaniel, D., Salem, O.,Scalia, G., Biancalani, T., Turley, S., Rock, J., et al. (2023). Scalablequerying of human cell atlases via a foundational model reveals com-monalities across fibrosis-associated macrophages. Preprint at bioRxiv.
Dixit, A., Parnas, O., Li, B., Chen, J., Fulco, C.P., Jerby-Arnon, L., Marja-novic, N.D., Dionne, D., Burks, T., Raychowdhury, R., et al. (2016). Per-turb-Seq: dissecting molecular circuits with scalable single-cell RNAprofiling of pooled genetic screens. Cell 167, 1853–1866.e17.
Srivatsan, S.R., McFaline-Figueroa, J.L., Ramani, V., Saunders, L., Cao,J., Packer, J., Pliner, H.A., Jackson, D.L., Daza, R.M., Christiansen, L.,et al. (2020). Massively multiplex chemical transcriptomics at single-cell resolution. Science 367, 45–51.
Feldman, D., Funk, L., Le, A., Carlson, R.J., Leiken, M.D., Tsai, F., Soong,B., Singh, A., and Blainey, P.C. (2022). Pooled genetic perturbationscreens with image-based phenotypes. Nat. Protoc. 17, 476–512.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez,A.N., Kaiser, L., and Polosukhin, I. (2017). Attention is all you need.Adv. Neural Inf. Process. Syst. 30.
Rombach, R., Blattmann, A., Lorenz, D., Esser, P., and Ommer, B. High- resolution image synthesis with latent diffusion models. In IEEE Confer- ence on Computer Vision and Pattern Recognition (CVPR), 10684–10695.
Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger,O., Tunyasuvunakool, K., Bates, R., Zˇ′?dek, A., Potapenko, A., et al.(2021). Highly accurate protein structure prediction with AlphaFold. Na-ture 596, 583–589.
Baek, M., DiMaio, F., Anishchenko, I., Dauparas, J., Ovchinnikov, S., Lee,G.R., Wang, J., Cong, Q., Kinch, L.N., Schaeffer, R.D., et al. (2021). Ac-curate prediction of protein structures and interactions using a three-track neural network. Science 373, 871–876.
Lin, Z., Akin, H., Rao, R., Hie, B., Zhu, Z., Lu, W., Smetanin, N., Verkuil, R.,Kabeli, O., Shmueli, Y., et al. (2023). Evolutionary-scale prediction ofatomic-level protein structure with a language model. Science 379,1123–1130.
Gomes, J., Ramsundar, B., Feinberg, E.N., and Pande, V.S. (2017).Atomic convolutional networks for predicting protein-ligand binding af-finity. Preprint at arXiv.
Cunningham, J.M., Koytiger, G., Sorger, P.K., and AlQuraishi, M. (2020).Biophysical prediction of protein–peptide interactions and signaling net-works using machine learning. Nat. Methods 17, 175–183.
Torng, W., and Altman, R.B. (2019). High precision protein functional sitedetection using 3D convolutional neural networks. Bioinformatics 35,1503–1512.
Corso G., Sta¨ rk H., Jing B., Barzilay R., and Jaakkola T. (2023). DiffDock: Diffusion Steps, Twists, and Turns for Molecular Docking The Eleventh International Conference on Learning Representations.
Kudo, T., Meireles, A.M., Moncada, R., Chen, Y., Wu, P., Gould, J., Hu,X., Kornfeld, O., Jesudason, R., Foo, C., et al. (2024). Multiplexed, im-age-based pooled screens in primary cells and tissues with perturbview.Nat. Biotechnol., 1–10.
Roohani, Y., Huang, K., and Leskovec, J. (2023). Predicting transcrip-tional outcomes of novel multigene perturbations with GEARS. Nat. Bio-technol. 42, 927–935.
Bunne, C., Stark, S.G., Gut, G., Del Castillo, J.S., Levesque, M., Leh-mann, K.-V., Pelkmans, L., Krause, A., and Ratsch, G. (2023). Learningsingle-cell perturbation responses using neural optimal transport. Nat.Methods 20, 1759–1768.
Lotfollahi, M., Klimovskaia Susmelj, A., De Donno, C., Hetzel, L., Ji, Y.,Ibarra, I.L., Srivatsan, S.R., Naghipourfar, M., Daza, R.M., Martin, B.,et al. (2023). Predicting cellular responses to complex perturbations inhigh-throughput screens. Mol. Syst. Biol. 19, e11517.
Bunne, C., Krause, A., and Cuturi, M. (2022). Supervised Training of Con-ditional Monge Maps. Adv. Neural Inf. Process. Syst. 35, 6859–6872.
Bereket, M., and Karaletsos, T. (2024). Modelling Cellular Perturbationswith the Sparse Additive Mechanism Shift Variational Autoencoder.Adv. Neural Inf. Process. Syst. 36.
Huang, K., Huang, K., Lopez, R., Hutter, J.-C., Kudo, T., Rios, A., and Re-gev, A. (2023). Sequential Optimal Experimental De- sign of PerturbationScreens Guided by Multi-modal Priors. In International Conference onResearch in Computational Molecular Biology (Springer Nature),
Roohani, Y.H., Vora, J., Huang, Q., Liang, P., and Leskovec, J. (2024).BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Ex-periments Preprint at arXiv.
Cleary, B., and Regev, A. (2024). The necessity and power of random,undersampled experiments in biology. Preprint at arXiv.
Ji, Y., Zhou, Z., Liu, H., and Davuluri, R.V. (2021). DNABERT: pre-trainedBidirectional Encoder Representations from Transformers model forDNA-language in genome. Bioinformatics 37, 2112–2120.
Brandes, N., Ofer, D., Peleg, Y., Rappoport, N., and Linial, M. (2022). Pro-teinBERT: a universal deep-learning model of pro- tein sequence andfunction. Bioinformatics 38, 2102–2110.
Celaj, A., Gao, A.J., Lau, T.T.Y., Holgersen, E.M., Lo, A., Lodaya, V., Cole,C.B., Denroche, R.E., Spickett, C., Wagih, O., et al. (2023). An RNA foun-dation model enables discovery of disease mechanisms and candidatetherapeutics. Preprint at bioRxiv.
Nguyen, E., Poli, M., Durrant, M.G., Kang, B., Katrekar, D., Li, D.B., Bar-tie, L.J., Thomas, A.W., King, S.H., Brixi, G., et al. (2024). Sequencemodeling and design from molecular to genome scale with Evo. Science386, eado9336.
Hayes, T., Rao, R., Akin, H., Sofroniew, N.J., Oktay, D., Lin, Z., Verkuil, R.,Tran, V.Q., Deaton, J., Wiggert, M., et al. (2024). Simulating 500 millionyears of evolution with a language model. Preprint at bioRxiv.
Ruffolo, J.A., Nayfach, S., Gallagher, J., Bhatnagar, A., Beazer, J., Hus-sain, R., Russ, J., Yip, J., Hill, E., Pacesa, M., et al. (2024). Design of highlyfunctional genome editors by modeling the universe of CRISPR-cas se-quences. Preprint at bioRxiv.
Peng, Z., Schussheim, B., and Chatterjee, P. (2024). PTM-mamba: aPTM-aware protein language model with bidirectional gated mambablocks. Preprint at bioRxiv.
Dai, B., Mattox, D.E., and Bailey-Kellogg, C. (2021). Atten- tion please:modeling global and local context in glycan structure-function relation-ships. Preprint at bioRxiv.
Yu, T., Yao, T., Sun, Z., Shi, F., Zhang, L., Lyu, K., Xuan, B., Liu, A., Zhang,X., Zou, J., et al. (2024). LipidBERT: A Lipid Language Model Pre- trainedon METiS de novo Lipid Library. Preprint at arXiv.
Krishna, R., Wang, J., Ahern, W., Sturmfels, P., Venkatesh, P., Kalvet, I.,Lee, G.R., Morey-Burrows, F.S., Anishchenko, I., Humphreys, I.R., et al.(2024). Generalized biomolecular modeling and design withRoseTTAFold All-Atom. Science 384, eadl2528.
Rosen, Y., Brbic′, M., Roohani, Y., Swanson, K., Li, Z., and Leskovec, J.(2024). Toward universal cell embeddings: integrating single-cell RNA-seq datasets across species with Saturn. Nat. Methods 21, 1492–1500.
Rosen, Y., Roohani, Y., Agrawal, A., Samotorcˇan, L., Tabula SapiensConsortium, Quake, S.R., and Leskovec, J. (2023). Universal cell embed-dings: A foundation model for cell biology. Preprint at bioRxiv.
Chen, Y., and Zou, J. (2024). GenePT: A Simple but Effective Foun- da-tion Model for Genes and Cells Built from ChatGPT. Preprint at bioRxiv.
Mahdessian, D., Cesnik, A.J., Gnann, C., Danielsson, F., Stenstro¨ m, L.,Arif, M., Zhang, C., Le, T., Johansson, F., Schutten, R., et al. (2021).Spatiotemporal dissection of the cell cycle with single-cell proteogenom-ics. Nature 590, 649–654.
Chandrasekaran, S.N., Cimini, B.A., Goodale, A., Miller, L., Kost-Ali-mova, M., Jamali, N., Doench, J.G., Fritchman, B., Skepner, A., Melan-son, M., et al. (2024). Three million images and mor- phological profilesof cells treated with matched chemical and genetic perturbations. Nat.Methods 21, 1114–1121.
Carlson, R.J., Leiken, M.D., Guna, A., Hacohen, N., and Blainey, P.C.(2023). A genome-wide optical pooled screen reveals regulators ofcellular antiviral responses. Proc. Natl. Acad. Sci. USA 120,e2210623120.
Thul, P.J., A? kesson, L., Wiking, M., Mahdessian, D., Geladaki, A., Ait Blal,H., Alm, T., Asplund, A., Bjo¨ rk, L., Breckels, L.M., et al. (2017). A subcel-lular map of the human proteome. Science 356, eaal3321.
McDole, K., Guignard, L., Amat, F., Berger, A., Malandain, G., Royer,L.A., Turaga, S.C., Branson, K., and Keller, P.J. (2018). In toto imagingand reconstruction of post-implantation mouse development at the sin-gle-cell level. Cell 175, 859–876.e33.
Nogales, E., and Mahamid, J. (2024). Bridging structural and cell biologywith cryo-electron microscopy. Nature 628, 47–56.
Bauda, E., Gallet, B., Moravcova, J., Effantin, G., Chan, H., Novacek, J.,Jouneau, P.H., Rodrigues, C.D.A., Schoehn, G., Moriscot, C., et al.(2024). Ultrastructure of macromolecular assemblies contributing to bac-terial spore resistance revealed by in situ cryo-electron tomography. Nat.Commun. 15, 1376.
Lelek, M., Gyparaki, M.T., Beliu, G., Schueder, F., Griffie′ , J., Manley, S.,Jungmann, R., Sauer, M., Lakadamyali, M., and Zimmer, C. (2021). Sin-gle-molecule localization microscopy. Nat. Rev. Methods Primers 1, 39.
Mo¨ ckl, L., and Moerner, W.E. (2020). Super-resolution microscopy withsingle molecules in biology and beyond–essentials, current trends, andfuture challenges. J. Am. Chem. Soc. 142, 17828–17844.
Cesnik, A., Schaffer, L.V., Gaur, I., Jain, M., Ideker, T., and Lundberg, E.(2024). Mapping the multiscale proteomic Or- ganization of cellular andDisease Phenotypes. Annu. Rev. Biomed. Data Sci. 7, 369–389.
Qin, Y., Huttlin, E.L., Winsnes, C.F., Gosztyla, M.L., Wacheul, L., Kelly,M.R., Blue, S.M., Zheng, F., Chen, M., Schaffer, L.V., et al. (2021). Amulti-scale map of cell structure fusing protein images and interactions.Nature 600, 536–542.
Dosovitskiy, A. (2020). An image is worth 16x16 words: transformers forimage recognition at scale. Preprint at arXiv.
Fukushima, K. (1980). Neocognitron: a self organizing neural networkmodel for a mechanism of pattern recognition unaffected by shift in po-sition. Biol. Cybern. 36, 193–202.
LeCun, Y., and Yoshua, B. (1995). Convolutional networks for images,speech, and time series. The Handbook of Brain Theory and Neural Net-works 3361, 255–258.
Bao, Y., Sivanandan, S., and Karaletsos, T. (2023). Channel Vision Trans-formers: An Image Is Worth c x 16 x 16 WordsThe Twelfth. InternationalConference on Learning Representations 4.
Kraus, O., Kenyon-Dean, K., Saberian, S., Fallah, M., McLean, P., Leung,J., Sharma, V., Khan, A., Balakrishnan, J., Celik, S., et al. (2024). Maskedautoencoders for microscopy are scalable learners of cellular biology. InIEEE Conference on Computer Vision and Pattern Recognition (CVPR),pp. 11757–11768.
Bao, Y., and Karaletsos, T. (2023). Contextual vision transformers forrobust representation learning. Preprint at arXiv.
Lopez, R., Regier, J., Cole, M.B., Jordan, M.I., and Yosef, N. (2018). Deepgenerative modeling for single-cell transcriptomics. Nature Methods 15,1053–1058.
Theodoris, C.V., Xiao, L., Chopra, A., Chaffin, M.D., Al Sayed, Z.R., Hill,M.C., Mantineo, H., Brydon, E.M., Zeng, Z., Liu, X.S., et al. (2023). Trans-fer learning enables predictions in network biology. Nature 618, 616–624.
Kobayashi-Kirschvink, K.J., Comiter, C.S., Gaddam, S., Joren, T., Grody,E.I., Ounadjela, J.R., Zhang, K., Ge, B., Kang, J.W., Xavier, R.J., et al.(2024). Prediction of single-cell RNA expression profiles in live cells byRaman microscopy with Raman2RNA. Nat. Biotechnol. 42, 1726–1734.
Ryu, J., Lopez, R., Bunne, C., and Regev, A. (2024). Cross-modalitymatching and prediction of perturbation responses with labeledGromov-Wasserstein optimal transport. Preprint at arXiv.
Saar, K.L., Scrutton, R.M., Bloznelyte, K., Morgunov, A.S., Good, L.L.,Lee, A.A., Teichmann, S.A., and Knowles, T.P.J. (2024). Protein Conden-sate Atlas from predic- tive models of heteromolecular condensatecomposition. Nat. Commun. 15, 5418.
Macosko, E.Z., Basu, A., Satija, R., Nemesh, J., Shekhar, K., Goldman,M., Tirosh, I., Bialas, A., Kamitaki, N., Martersteck, E., et al. (2015). Highlyparallel genome-wide expression profiling of individual cells using nano-liter droplets. Cell 161, 1202–1214.
Sta? hl, P.L., Salme′ n, F., Vickovic, S., Lundmark, A., Navarro, J.F., Mag-nusson, J., Giacomello, S., Asp, M., Westholm, J.O., Huss, M., et al.(2016). Visualization and analysis of gene expression in tissue sectionsby spatial transcriptomics. Science 353, 78–82.
Lundberg, E., and Borner, G.H.H. (2019). Spatial proteomics: a powerfuldiscovery tool for cell biology. Nat. Rev. Mol. Cell Biol. 20, 285–302.
Marconato, L., Palla, G., Yamauchi, K.A., Virshup, I., Heidari, E., Treis, T., Vierdag, W.M., Toth, M., Stockhaus, S., Shrestha, R.B., et al. (2024). Spa- tialData: an open and universal data framework for spatial omics. Nat. Methods. https://doi.org/10.1038/s41592-024-02212-x.
Somnath, V.R., Pariset, M., Hsieh, Y.-P., Martinez, M.R., Krause, A., andBunne, C. (2023). Aligned Diffusion Schro¨ dinger Bridges. In Uncertaintyin Artificial Intelligence, pp. 1985–1995.
Katharopoulos, A., Vyas, A., Pappas, N., and Fleuret, F. (2020). Fast au-toregressive transformers with linear attention. In International Confer-ence on Machine Learning.
Abramson, J., Adler, J., Dunger, J., Evans, R., Green, T., Pritzel, A., Ron-neberger, O., Willmore, L., Ballard, A.J., Bambrick, J., et al. (2024). Accu-rate structure prediction of biomolecular interactions with AlphaFold 3.Nature 630, 493–500.
Norman, T.M., Horlbeck, M.A., Replogle, J.M., Ge, A.Y., Xu, A., Jost, M.,Gilbert, L.A., and Weissman, J.S. (2019). Exploring genetic interactionmanifolds constructed from rich single-cell phenotypes. Science 365,786–793.
Lawson, M.J., Camsund, D., Larsson, J., Baltekin, O¨ ., Fange, D., and Elf,J. (2017). In situ genotyping of a pooled strain library after characterizingcomplex phenotypes. Mol. Syst. Biol. 13, 947.
Papamarkou, T., Skoularidou, M., Palla, K., Aitchison, L., Arbel, J., Dun-son, D., Filliponne, M., Fortuin, V., Hennig, P., Hernandez-Lobato, J.M.,et al. (2024). Position: bayesian deep learning is needed in the age oflarge-scale AI. In Forty-First International Conference on MachineLearning.
D’Angelo, F., and Fortuin, V. (2021). Wenzel F.On Stein Variational NeuralNetwork. Ensembles Preprint at arXiv.
Ober, S.W., Rasmussen, C.E., and van der Wilk, M. (2021). The promisesand pitfalls of deep kernel learning. In Conference on Uncertainty in Arti-ficial Intelligence, pp. 1206–1216.
Karaletsos, T. (2020). Bui T.D.Hierarchical Gaussian Process Priors forBayesian Neural Network Weights. Adv. Neural Inf. Process. Syst. 33,17141–17152.
Kapoor, S., Maddox, W.J., Izmailov, P., and Wilson, A.G. (2022). On un-certainty, tempering, and data augmentation in bayesian classification.Adv. Neural Inf. Process. Syst. 35, 18211–18225.
Lakshminarayanan, B., Pritzel, A., and Blundell, C. (2017). Simple andScalable Predictive Uncertainty Estimation using Deep Ensembles.Adv. Neural Inf. Process. Syst. 30.
Angelopoulos, A.N., and Bates, S. (2021). A gentle introduction toconformal prediction and distribution-free uncertainty quantification.Preprint at arXiv.
Cherian, J.J., Gibbs, I., and Cande` s, E.J. (2024). Large language modelvalidity via enhanced conformal prediction methods. Preprint at arXiv.
Cho, N.H., Cheveralls, K.C., Brunner, A.D., Kim, K., Michaelis, A.C., Ra-ghavan, P., Kobayashi, H., Savy, L., Li, J.Y., Canaj, H., et al. (2022). Open-Cell: endogenous tagging for the cartography of human cellular organiza-tion. Science 375, eabi6983.
Uhle′ n, M., Fagerberg, L., Hallstro¨ m, B.M., Lindskog, C., Oksvold, P.,Mardinoglu, A., Sivertsson, A? ., Kampf, C., Sjo¨ stedt, E., Asplund, A.,et al.. (2015). Proteomics. Tissue-based map of the human proteome.Science 347, 1260419.
Berger, C., Premaraj, N., Ravelli, R.B.G., Knoops, K., Lo′ pez-Iglesias, C.,and Peters, P.J. (2023). Cryo-electron tomography on focused ion beamlamellae transforms structural cell biology. Nat. Methods 20, 499–511.
Loconte, V., Chen, J.H., Vanslembrouck, B., Ekman, A.A., McDermott,G., Le Gros, M.A., and Larabell, C.A. (2023). Soft X-ray tomograms pro-vide a structural basis for whole-cell modeling. FASEB J. 37, e22681.
Moffitt, J.R., Lundberg, E., and Heyn, H. (2022). The emerging landscapeof spatial profiling technologies. Nat. Rev. Genet. 23, 741–759.
Vandereyken, K., Sifrim, A., Thienpont, B., and Voet, T. (2023). Methodsand applications for single-cell and spatial multi-omics. Nat. Rev. Genet.24, 494–515.
Tabula Sapiens Consortium*, Jones, R.C., Karkanias, J., Krasnow, M.A.,Pisco, A.O., Quake, S.R., Salzman, J., Yosef, N., Bulthaup, B., Brown, P.,et al. (2022). The tabula sapiens: A multiple-organ, single-cell transcrip-tomic atlas of humans. Science 376, eabl4896.
He, B., Bergenstra? hle, L., Stenbeck, L., Abid, A., Andersson, A., Borg, A? .,Maaskola, J., Lundeberg, J., and Zou, J. (2020). Integrating spatial geneexpression and breast tumour morphology via deep learning. Nat. Bio-med. Eng. 4, 827–834.
Bock, C., Boutros, M., Camp, J.G., Clarke, L., Clevers, H., Knoblich, J.A.,Liberali, P., Regev, A., Rios, A.C., Stegle, O., et al. (2021). The organoidcell atlas. Nat. Biotechnol. 39, 13–17.
Tabula; Muris Consortium; Overall coordination; Logistical coordination;Organ collection and processing; Library preparation and sequencing;Computational data analysis; Cell type annotation; Writing group; Sup-plemental text writing group; Principal investigators (2018). Single-celltranscriptomics of 20 mouse organs creates a tabula muris. Nature562, 367–372.
Li, H., Janssens, J., De Waegeneer, M., Kolluru, S.S., Davie, K., Gardeux,V., Saelens, W., David, F.P.A., Brbic′, M., Spanier, K., et al. (2022). Fly CellAtlas: A single-nucleus transcriptomic atlas of the adult fruit fly. Science375, eabk2432.
Lange, M., Granados, A., Vijaykumar, S., Bragantini, J., Ancheta, S., San-thosh, S., Borja, M., Kobayashi, H., McGeever, E., Solak, A.C., et al.(2023). Zebrahub – Multimodal zebrafish Developmental Atlas Revealsthe State Transition Dynamics of Late Vertebrate Pluripotent Axial Pro-genitors. Preprint at bioRxiv.
Katz, K., Shutov, O., Lapoint, R., Kimelman, M., Brister, J.R., and O’Sul-livan, C. (2022). The Sequence Read Archive: a decade more of explosivegrowth. Nucleic Acids Res. 50, D387–D390.
Achiam, J., et al. (2023). GPT-4 technical report. Preprint at arXiv.
Ding, F., and Steinhardt, J.N. (2024). Protein language models are biasedby unequal sequence sampling across the tree of life. Preprint at bioRxiv.
Liao, W.-W., Asri, M., Ebler, J., Doerr, D., Haukness, M., Hickey, G., Lu,S., Lucas, J.K., Monlong, J., Abel, H.J., et al. (2023). A draft human pan-genome reference. Nature 617, 312–324.
Liu, J., Shen, Z., He, Y., Zhang, X., Xu, R., Yu, H., and Cui, P. (2021). To-wards out-of-distribution generalization: A survey. Preprint at arXiv.
Nisonoff, H., Wang, Y., and Listgarten, J. (2023). Coherent blend- ing of biophysics-based knowledge with bayesian neural networks for robust protein property prediction. ACS Synth. Biol. 12, 3242–3251. https://doi.org/10.1021/acssynbio.3c00217.
Zheng, F., Kelly, M.R., Ramms, D.J., Heintschel, M.L., Tao, K., Tutuncuo-glu, B., Lee, J.J., Ono, K., Foussard, H., Chen, M., et al. (2021). Interpre-tation of cancer mutations using a multiscale map of protein systems.Science 374, eabf3067.
Ma, J., Yu, M.K., Fong, S., Ono, K., Sage, E., Demchak, B., Sharan, R.,and Ideker, T. (2018). Using deep learning to model the hierarchical struc-ture and function of a cell. Nat. Methods 15, 290–298.
Gao, S., Fang, A., Huang, Y., Giunchiglia, V., Noori, A., Schwarz, J.R., Ek-tefaie, Y., Kondic, J., and Zitnik, M. (2024). Empowering biomedical dis-covery with AI agents. Cell 187, 6125–6151.
Hurrell, T., Naidoo, J., Ntlhafu, T., and Scholefield, J. (2024). An Africanperspective on genetically diverse human induced pluripotent stem celllines. Nat. Commun. 15, 8581.
Gibbs, R.A., Belmont, J.W., Hardenbol, P., Willis, T.D., Yu, F.L., Yang,H.M., Ch’ang, L.Y., Huang, W., Shen, B., Tam, Y., et al. (2003). The inter-national HapMap project. Nature 5, 467–475.
Cancer; Genome; Atlas; Research Network, Weinstein, J.N., Collisson,E.A., Mills, G.B., Shaw, K.R.M., Ozenberger, B.A., Ellrott, K., Shmulevich,I., Sander, C., and Stuart, J.M. (2013). The cancer genome atlas pan-can-cer analysis project. Nat. Genet. 45, 1113–1120.
ENCODE Project Consortium (2012). An integrated encyclopedia of DNAelements in the human genome. Nature 489, 57–74.
Lonsdale, J., Thomas, J., Salvatore, M., Phillips, R., Lo, E., Shad, S.,Hasz, R., Walters, G., Garcia, F., Young, N., and Foster, B. (2013). TheGenotype-Tissue Expression (GTEx) project. Nat. Genet. 45, 580–585.
Ponte′ n, F., Jirstro¨ m, K., and Uhlen, M. (2008). The Human Protein Atlas–atool for pathology. J. Pathol. 216, 387–393.
Downey, P., and Peakman, T.C. (2008). Design and implementation of ahigh-throughput biological sample processing facil- ity using modernmanufacturing principles. Int. J. Epidemiol. 37 (Suppl 1 ), i46–i50.
Madani, A., Krause, B., Greene, E.R., Subramanian, S., Mohr, B.P., Hol-ton, J.M., Olmos, J.L., Xiong, C., Sun, Z.Z., Socher, R., et al. (2023). Largelanguage models generate func- tional protein sequences across diversefamilies. Nat. Biotechnol. 41, 1099–1106.
Nelson, M.R., Tipney, H., Painter, J.L., Shen, J., Nicoletti, P., Shen, Y.,Floratos, A., Sham, P.C., Li, M.J., Wang, J., et al. (2015). The supportof human genetic evidence for approved drug indications. Nat. Genet.47, 856–860.
Mason, C., Brindley, D.A., Culme-Seymour, E.J., and Davie, N.L. (2011).Cell therapy industry: billion dollar global business with unlimited poten-tial. Regen. Med. 6, 265–272.
Bashor, C.J., Hilton, I.B., Bandukwala, H., Smith, D.M., and Veiseh, O.(2022). Engineering the next generation of cell-based therapeutics. Nat.Rev. Drug Discov. 21, 655–675.
Jia, Q., Wang, A., Yuan, Y., Zhu, B., and Long, H. (2022). Heterogeneity ofthe tumor immune microenvironment and its clinical relevance. Exp.Hematol. Oncol. 11, 24.
Melssen, M.M., Sheybani, N.D., Leick, K.M., and Slingluff, C.L. (2023).Barriers to immune cell infiltration in tumors. J. Immunother. Cancer 11.
Chow, A., Perica, K., Klebanoff, C.A., and Wolchok, J.D. (2022). Clinicalimplications of T cell exhaustion for cancer immunotherapy. Nature Re-views Clinical Oncology 19, 775–790.
de Visser, K.E., and Joyce, J.A. (2023). The evolving tumor microenviron-ment: from cancer initiation to metastatic outgrowth. Cancer Cell 41,374–403.
Barkley, D., Moncada, R., Pour, M., Liberman, D.A., Dryg, I., Werba, G.,Wang, W., Baron, M., Rao, A., Xia, B., et al. (2022). Cancer cell statesrecur across tumor types and form specific interactions with the tumormicroenvironment. Nat. Genet. 54, 1192–1201.
Schwartzberg, L., Kim, E.S., Liu, D., and Schrag, D. (2017). Precisiononcology: who, how, what, when, and when not? American Society ofClinical Oncology Educational Book 37, 160–169.
Aebersold, R., Agar, J.N., Amster, I.J., Baker, M.S., Bertozzi, C.R., Boja,
E.S., Costello, C.E., Cravatt, B.F., Fenselau, C., Garcia, B.A., et al. (2018).How many human proteoforms are there? Nat. Chem. Biol. 14, 206–214.
Katsoulakis, E., Wang, Q., Wu, H., Shahriyari, L., Fletcher, R., Liu, J.,Achenie, L., Liu, H., Jackson, P., Xiao, Y., et al. (2024). Digital twins forhealth: a scoping review. npj Digit. Med. 7, 77.
Rajewsky, N., Almouzni, G., Gorski, S.A., Aerts, S., Amit, I., Bertero,M.G., Bock, C., Bredenoord, A.L., Cavalli, G., Chiocca, S., et al. (2020).Lifetime and improving European healthcare through cell-based inter-ceptive medicine. Nature 587, 377–386.
Alix-Panabie` res, C., and Pantel, K. (2021). Liquid biopsy: from discoveryto clinical application. Cancer Discov. 11, 858–873.
Vaishnav, E.D., de Boer, C.G., Molinet, J., Yassour, M., Fan, L., Adiconis,X., Thompson, D.A., Levin, J.Z., Cubillos, F.A., and Regev, A. (2022). Theevolution, evolvability and engineering of gene regulatory DNA. Nature603, 455–463.
Go′ mez-de-Mariscal, E., Garc?′a-Lo′ pez-de-Haro, C., Ouyang, W., Donati,L., Lundberg, E., Unser, M., Mun? oz-Barrutia, A., and Sage, D. (2021).DeepImageJ: A user-friendly environment to run deep learning modelsin ImageJ. Nat. Methods 18, 1192–1195.
Le, T., Winsnes, C.F., Axelsson, U., Xu, H., Mohanakrishnan Kaimal, J.,Mahdessian, D., Dai, S., Makarov, I.S., Ostankovich, V., Xu, Y., et al.(2022). Analysis of the human protein atlas weakly supervised single-cell classification competition. Nat. Methods 19, 1221–1229.
Chen, R.J., Ding, T., Lu, M.Y., Williamson, D.F.K., Jaume, G., Song, A.H.,Chen, B., Zhang, A., Shao, D., Shaban, M., et al. (2024). Towards a gen-eral-purpose foundation model for computational pathology. Nat. Med.30, 850–862.
Moen, E., Bannon, D., Kudo, T., Graf, W., Covert, M., and Van Valen, D.(2019). Deep learning for cellular image analysis. Nat. Methods 16,1233–1246.
Avsec, Zˇ., Weilert, M., Shrikumar, A., Krueger, S., Alexandari, A., Dalal,K., Fropf, R., McAnany, C....
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.