
撰文|亦
人類啟動子活性預測的傳統深度學習方法依賴于整合大量表觀基因組數據進行訓練【1,2】,計算成本高且只能反映序列與表達的相關性,難以直接推斷因果關系,也無法預測未包含在訓練集中的細胞類型或條件下的調控變化。
近日,荷蘭烏得勒支昂科德研究所Bas van Steensel團隊與Jeroen de Ridder團隊合作,共同在Nature上發表了一篇題為Regulatory grammar in human promoters uncovered by MPRA-based deep learning的文章。 研究團隊開發了PARM(promoter activity regulatory model) —— 一個基于細胞類型特異性MPRA數據訓練的輕量級深度學習模型,能夠僅從DNA序列準確預測啟動子活性,并解析啟動子的調控語法。
![]()
為了直接從DNA序列預測啟動子活性并克服傳統表觀基因組模型的局限性,研究者利用K562和HepG2細胞的基因組范圍MPRA數據訓練了細胞特異性卷積神經網絡模型PARM。他們發現PARM能高精度預測啟動子活性(K562中Pearson’s R=0.92,HepG2中R=0.89),并能準確預測個體片段的活性以及整合于基因組中的啟動子活性(R=0.78-0.80)。通過ISM分析,PARM成功預測了TERT啟動子中致癌突變(如C250T和C228T)會增強表達,并在預測血液組織中順式作用eQTLs方面達到了與大型模型Enformer相當的精度,但參數量(742,337)遠少于Borzoi(>3千萬)。
為了進一步驗證PARM的預測能力并探索其設計全新啟動子的潛力,研究者采用遺傳算法,以PARM為評估函數,從隨機序列開始迭代優化生成合成啟動子。他們發現該算法生成了大量PARM預測為高活性的多樣化序列。實驗驗證顯示,這些合成啟動子的實測活性與預測強相關,其中最強合成啟動子的活性與天然最強啟動子相當。更重要的是,定向突變PARM預測為關鍵的12-18個核苷酸,會導致合成啟動子活性平均降低3.16±0.77倍,證明模型能精準識別功能序列元件。這些 合成序列與人類基因組無顯著相似性,但包含了K562細胞中已知激活因子(如FOS-JUN, ETS, CREB)的結合基序,表明PARM已學會在特定細胞類型中組合有功能的TF基序 。得益于PARM的計算高效性,研究者將其ISM分析應用于30,607個人類啟動子,以系統識別影響活性的功能性TF結合位點(即調控位點RS)。他們發現,在K562細胞中,大多數RS與已知TF基序匹配,且對應的TF在細胞內均有表達或由其高度相似的家族成員表達。分析共在20,543個啟動子中識別出至少一個RS,而無RS的啟動子活性普遍較低。此外,研究者發現了1,402個不與任何已知基序匹配的RS,并對其中一個高頻未知基序(TCTCTATGGT)進行DNA親和純化與質譜分析,鑒定出ZNF48為其結合TF,并通過體外實驗證實,從而證明 PARM能發現罕見且注釋不全的功能性TF基序 。
由于全基因組MPRA文庫需要大量細胞且可擴展性有限,而PARM訓練僅需覆蓋啟動子的片段,研究者 開發了一種基于捕獲策略、高度富集(90%)啟動子重疊片段的聚焦MPRA文庫 。他們發現,這種文庫僅需約500萬細胞(比全基因組MPRA少240倍),仍能以平均151倍的覆蓋率覆蓋所有人類TSS,且在K562和HepG2細胞中測得的啟動子活性及PARM的預測能力與全基因組數據相當。利用此經濟策略,他們成功為另外七種人類細胞系和一種患者來源的結腸癌類器官生成了高質量數據和PARM模型,模型訓練僅需約1天,證明了該策略在實驗和計算上的高效性與通用性。
為了在多種細胞類型中實驗驗證PARM的預測,研究者構建了一個包含十個啟動子的合成MPRA文庫,在其中系統引入每個核苷酸的所有三種突變,并在七種細胞系中測量每個單點突變的影響。他們發現,在30個通過嚴格質量控制的啟動子-細胞系組合中,PARM預測的突變效應與實測值之間的Pearson相關系數為0.52±0.18,與Enformer(0.50±0.19)相似,而Borzoi表現更不穩定(0.48±0.32)。在識別實驗可檢測的RS方面,Borzoi的召回率通常最高,但PARM的精確度普遍優于Enformer和Borzoi。這表明 盡管PARM計算上更輕量,但其整體性能相似,且在識別RS時更為保守 。
接下來,研究者利用PARM探索了九種細胞系中啟動子調控的差異。他們發現,盡管不同細胞類型間自主啟動子活性高度相關(R=0.78-0.95),但 PARM模型仍揭示了大量細胞類型特異性的調控事件 。分析顯示,靶向數千個啟動子的TF通常在所有細胞類型中均活躍,而靶向較少啟動子的TF(如HepG2中的HNF1A/HNF1B,K562中的GATA因子)則表現出明顯的細胞類型特異性。一個值得注意的發現是, TBP在其基序上的活性并非在所有細胞類型中普遍存在,這與近期研究提示其非必需性的觀點一致 。這些分析表明PARM可用于揭示啟動子的細胞類型特異性調控。利用PARM工作流程的經濟性優勢,研究者通過MPRA和對應模型分析了細胞對三種不同刺激(熱激、nutlin-3a、PMA)的響應。他們發現,即使簡單的擾動結合聚焦PARM,也能提供關于個體啟動子動態調控及責任TF的詳細信息。
研究者探究了TF基序的方向和位置是否影響其調控活性。他們發現, 在幾乎所有細胞類型和大多數TF基序中,PARM檢測到的激活RS在兩個方向上的數量相似,但TBP和CTCF-CTCFL是顯著例外 。此外,所有啟動子匯總的RS在TSS上游-120bp至+10bp范圍內呈偏好性分布,峰值在-50bp,這與之前基于線性回歸的估計一致。而僅基于序列的基序掃描則分布更平坦且多出約20倍的匹配,表明大多數基序在研究的細胞類型中并無功能。對匹配特定TF基序的RS進行分析,揭示了多樣化的TF特異性位置模式,且這些功能性RS的分布比單純基序掃描得到的分布更為集中,提供了單純基序出現頻率無法提供的功能信息。為了更詳細研究 特定TF基序在啟動子中的位置效應,研究者使用PARM預測了將單個TF基序插入天然啟動子序列各處的影響。他們發現,這種效應高度多樣化且依賴于位置 。對30,607個啟動子系統插入四種TF基序(NRF1、NFYA、SP1、YY1)的分析揭示了普遍趨勢和例外:NRF1、NFYA和SP1基序插入在活躍啟動子中會產生多樣化的位置效應(包括抑制),而YY1基序則主要表現出激活效應,尤其是在低活性啟動子的TSS下游插入時。后續MPRA實驗在四種細胞類型中驗證了這些預測,確認了NFYA、NRF1和SP1基序在TSS附近或下游的抑制效應,以及YY1在這些位置的最強激活效應,表明這些效應并非普適,強烈依賴于局部序列背景和啟動子的基線活性。
綜上所述,這項研究 開發了名為PARM的經濟高效深度學習框架,通過結合定制化MPRA數據與輕量級卷積神經網絡,實現了僅從DNA序列直接預測人類啟動子活性,并系統解析了其在多種細胞類型及刺激響應下的轉錄因子調控語法。 該研究突破了傳統依賴海量表觀基因組數據的建模瓶頸,以“輕量化”策略實現了對啟動子核心調控邏輯的因果性解析,為未來在合成生物學、疾病突變解讀及個性化醫療中快速建模細胞特異性基因調控奠定了方法學基礎。
https://doi.org/10.1038/s41586-025-10093-z
制版人: 十一
參考文獻
1. Zhou, J. & Troyanskaya, O. G. Predicting effects of noncoding variants with deep learningbased sequence model.Nat. Methods12, 931–934 (2015) .
2. Kelley, D. R. et al. Sequential regulatory activity prediction across chromosomes with convolutional neural networks.Genome Res.28, 739–750 (2018).
學術合作組織
(*排名不分先后)
![]()
戰略合作伙伴
(*排名不分先后)
![]()
![]()
轉載須知
【原創文章】BioArt原創文章,歡迎個人轉發分享,未經允許禁止轉載,所刊登的所有作品的著作權均為BioArt所擁有。BioArt保留所有法定權利,違者必究。
BioArt
Med
Plants
人才招聘
近期直播推薦

點擊主頁推薦活動
關注更多最新活動!
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.