網易首頁 > 網易號 > 正文申請入駐

Nature：AlphaGenome——多模態AI模型破譯基因組“暗物質”

2026-03-28 10:45:51　來源: 集智俱樂部

北京舉報

分享至

導語

從 DNA 序列預測功能基因組學數據的深度學習模型，是解析遺傳（基因）調控密碼的強大工具。現有方法需要在輸入序列長度與預測分辨率之間進行權衡，從而限制了其適用模態范圍和預測性能。這篇2026年1月發表于Nature的文章提出AlphaGenome—— 一種統一的 DNA 序列模型，它以 1?Mb 的 DNA 序列為輸入，可在單堿基分辨率水平預測數千條功能基因組學軌跡，覆蓋多種模態。這些模態包括：基因表達、轉錄起始、染色質可及性、組蛋白修飾、轉錄因子結合、染色質相互作用圖譜、剪接位點使用情況及剪接接點的坐標與強度。基于人類和小鼠基因組訓練的 AlphaGenome，在 26 項變異效應預測評估中，有 25 項達到或超過目前最先進的外部模型。該模型能夠同時精準評估所有模態下的變異效應，可準確復現 TAL1 癌基因附近臨床相關變異的作用機制。為方便更廣泛的應用，我們提供了可從序列出發生成基因組軌跡及預測變異效應的工具套件。

關鍵詞：AlphaGenome，深度學習，功能基因組學，遺傳調控密碼（Genetic Regulatory Code），單堿基分辨率（Single-Base-Pair Resolution），多模態，變異效應預測（Variant Effect Prediction），基因表達

魏云初丨作者

趙思怡丨審校

論文題目：Advancing regulatory variant effect prediction with AlphaGenome 論文鏈接：https://www.nature.com/articles/s41586-025-10014-0 發表時間：2026年1月28日論文來源：Nature

基因調控的“圣杯”：從序列到功能的預測

自人類基因組計劃完成以來，一個核心的生物學挑戰始終存在：我們擁有了完整的DNA序列“天書”。超過98%的人類基因組是非編碼區，它們如同基因世界的“暗物質”，復雜而難以解讀。近期，Google DeepMind團隊在Nature發表重磅研究，推出全新AI模型——AlphaGenome。它不僅能夠處理長達1 Mb的DNA序列，還能以單堿基分辨率，同時預測基因表達、剪接、染色質狀態等數千種功能圖譜，在絕大多數變異效應預測任務上達到目前最優水平。這項技術或將為罕見病診斷、藥物靶點發現和合成生物學帶來新的可能。近年來，深度學習為破解這一難題帶來曙光。"序列到功能"模型能夠從DNA序列直接預測染色質開放性、轉錄因子結合、基因表達量等多種分子表型。通過比較參考序列和變異序列的預測結果，這些模型就能推斷變異的分子效應。然而，現有模型普遍面臨兩個難以調和的矛盾。首先是"長度"與"精度"的矛盾。像SpliceAI這類模型能以單堿基分辨率進行精準預測，但其關注的上下文窗口通常只有10 kb左右，容易遺漏遠端的調控元件。而Enformer、Borzoi等模型雖然能處理長達200-500 kb的序列，捕捉更廣闊的調控語境，輸出分辨率卻降低到32 bp或128 bp的區間，模糊了剪接位點等關鍵細節。其次是"廣度"與"深度"的矛盾。一些模型在各自擅長的單一領域表現出色，但無法提供變異影響的全面視圖；而現有的多模態模型雖然在通用性上更勝一籌，但在某些具體任務上又可能落后于專用模型。

AlphaGenome：統一框架下的“全能選手”

正是在這樣的背景下，Google DeepMind團隊推出了AlphaGenome，其核心設計理念可以概括為長序列、高精度和多模態三個關鍵詞，通過一個統一的框架來解決現有模型所面臨的矛盾。

我們可以把AlphaGenome理解成一個非常聰明的基因“偵探”，它解讀DNA長文的過程主要分三步：

第一步，輸入——閱讀長篇“基因小說”。DNA序列就像一本很長的書。過去的技術只能一次讀一個短句，很容易漏掉前后文的聯系。但AlphaGenome能一口氣讀完長達1百萬個字母的篇章。這個長度，足以覆蓋絕大部分基因調控的“遠距離對話”，為理解基因之間如何互相影響提供了充足的上下文。

第二步，模型結構——分工明確的“閱讀小組”。為了高效處理這本“長篇小說”，模型內部有一個巧妙的團隊分工：

卷積層：像一位專注的“詞匯學家”，負責掃描文本，找出關鍵的“詞語”和“短語”，也就是像轉錄因子結合位點這樣的局部模式。
Transformer模塊：像一位宏觀的“劇作家”，負責理清前后章節的邏輯聯系，理解遠距離的“劇情”如何呼應。它擅長捕捉增強子如何遠程激活啟動子這類長程相互作用。

得益于底層的U型架構和并行計算策略，它在處理海量信息時，依然能精準到每一個“字母”（單堿基分辨率）。

第三步，輸出——預測11種不同的“閱讀筆記”。經過訓練，這個“閱讀小組”已經學習了人類和小鼠的數千個實驗數據。因此，它在讀完一段DNA序列后，能同時預測出11種不同的實驗結果，相當于一次性生成5,930種人類或1,128種小鼠的基因組圖譜。這些圖譜包括：基因的表達水平、RNA的剪接方式、染色質的開放狀態，甚至是DNA在三維空間里的折疊方式。

簡單來說，AlphaGenome就是一個能從海量DNA序列中，一次性解讀出多層次生物信息的強大工具。

整個訓練過程分為兩個階段：先使用4折交叉驗證訓練出具有強泛化能力的“教師”模型，再通過“知識蒸餾”將這些教師模型的“知識”濃縮到一個高效的“學生”模型中。這個經過蒸餾的學生模型不僅性能更強、更魯棒，還能在一次計算中完成對所有模態和細胞類型的預測，極大地便利了大規模變異效應分析。

圖 1 AlphaGenome 整體架構示意，圖中展示了 DeepMind 新一代基因組預測模型的核心設計：以1 Mb DNA 序列為輸入，通過跨設備序列并行化與類 U-Net 編解碼架構（編碼器 + Transformer 塔 + 解碼器）高效捕捉長距離調控信息；輸出覆蓋11 類功能基因組學模態，并根據任務特性提供從“單堿基（1 bp）到多尺度（128/2048 bp）”的精準分辨率。該架構首次實現 “長序列輸入 — 精細分辨率輸出 — 多模態統一預測” 的協同，是功能基因組學領域的里程碑式突破。

性能驗證：全面超越，細節驚人

一個模型的設計再精巧，最終也要用性能說話。研究團隊設計了極其嚴苛的基準測試，將AlphaGenome與現有的頂尖模型進行了正面交鋒。

在基因組信號預測的多項測試中，AlphaGenome表現出了明顯優勢：在24項評估任務中，它在22項上取得了最好成績。無論是預測基因表達，還是模擬染色質三維結構，抑或識別轉錄起始位點和染色質開放區域，它都優于目前主流的模型。 AlphaGenome實現變異效應預測的范式突破，在25/26項任務中問鼎SOTA。該模型的核心優勢在于對基因調控“語法”的深度解碼能力。在剪接預測領域，它不再局限于定位剪接位點，而是能夠精準預測變異對剪接過程的影響，成功捕捉從外顯子跳躍到新剪接產物形成的完整致病鏈條。在基因表達調控上，它能以高達90%的準確率，判斷一個DNA變異究竟是“打開”還是“關閉”某個基因，并且其識別出的這類功能性變異的數量，是此前最佳模型的兩倍有余。這一能力對于解讀“致病基因在哪里”的全基因組關聯研究（GWAS）至關重要，因為它能為這些區域內的變異賦予一個明確的功能性方向。模型在長程調控與機制可解釋性上也展現出卓越性能。 AlphaGenome在零樣本條件下，連接遠端“增強子”（相當于基因的遠程遙控器）與其目標基因的表現，即可比肩專門為此訓練的模型，證明其真正習得了三維空間下的長程調控邏輯。此外，在預測影響DNA“開放程度”或調控蛋白結合的變異時，其預測結果與實驗觀測高度一致；通過計算機模擬變異，研究人員能清晰地看到，預測效應大的變異往往破壞了或創建了關鍵調控蛋白的結合密碼，這為預測結果提供了直接、可驗證的分子機制解釋。

圖 2 AlphaGenome在基因表達層面的變異效應預測能力示意。該圖聚焦eQTL預測核心場景，清晰呈現模型對eQTL效應大小與方向的精準預測結果，以及在GWAS可信區間解讀、增強子-基因連接預測中的落地應用。其完整覆蓋從eQTL分子機制分析到復雜疾病關聯研究的表達調控鏈條，直觀體現了模型從基礎科研到臨床相關應用的轉化價值。

不止于預測：多模態視角下的機制解讀

AlphaGenome真正的強大之處，在于它能用一個統一的視角，看清整個調控網絡的全貌。研究團隊用一個經典的癌癥案例驗證了這一點：在T細胞急性淋巴細胞白血病中，TAL1癌基因附近有三個不同位置的突變——有的在基因上游，有的在內部，有的在下游。它們位置迥異，卻都導致了同一個結果：TAL1基因被異常“激活”了。當團隊在相關細胞上運行AlphaGenome時，模型就像一臺“時間回溯相機”，完整還原了這起基因調控案的作案全過程：對于上游的那個突變，模型“看到”原本沉睡的DNA區域突然亮起了“激活”的指示燈——染色質變得開放，增強子標記出現，這意味著這里新生成了一個“遠程開關”。與此同時，TAL1基因本身的“活躍生產”標記顯著增強，而“靜默關閉”的抑制標記則隨之減弱。這些來自不同層面的變化，最終都匯聚到一個可觀測的結果上：TAL1基因的“產量”明顯增加了。通過一次模型調用，AlphaGenome就提供了一條完整的證據鏈：它同時“觀測”了染色質狀態（DNA是封閉還是開放）、表觀修飾（哪些開關被按下），以及最終的基因表達（生產是否啟動），將三個位置迥異的突變如何通過不同路徑殊途同歸的過程，清晰地串聯了起來。后續的模擬分析進一步指出，那個上游突變很可能是在DNA上“畫”出了一個名為MYB的轉錄因子的“落腳點”，從而觸發了整個連鎖反應。

圖 3 AlphaGenome跨模態解讀TAL1癌基因變異效應示意。該圖聚焦T-ALL中TAL1癌基因激活場景，通過示意圖呈現三類非編碼突變位點分布，并以經典插入突變為例詳細展示其在多模態表觀修飾與表達水平上的REF-ALT變化。ISM分析揭示該突變引入MYB轉錄因子基序，多模態聚類熱圖進一步將致癌突變與對照突變在調控特征上明顯區分。通過整合多維度調控信號，該圖直觀揭示了非編碼突變驅動TAL1異常表達的分子機制，是本研究跨模態解讀能力的核心示例。

探索模型設計的“黑箱”：關鍵要素的消融研究

一個復雜的深度學習模型就像一個黑盒，其卓越性能究竟來源于哪些設計？研究團隊通過一系列的“消融實驗”來探究這個問題。

分辨率是關鍵：對于剪接、ATAC-seq這類需要精細定位的任務，1 bp的分辨率是不可或缺的。降低分辨率會直接導致性能下降。而對于染色質接觸圖譜或組蛋白修飾這類本身信號就較粗糙的任務，對分辨率的敏感度則較低。
長序列訓練至關重要：在1 Mb全長上訓練的模型，即使只在較短的序列上進行推斷，其表現也優于或相當于那些用短序列訓練和評估的模型。這表明，在訓練階段接觸長序列上下文，能讓模型學習到更普適的調控語法。
蒸餾技術的價值：蒸餾技術能將多個“教師”模型的知識濃縮進一個“學生”模型中，使其性能接近甚至超過簡單的模型集成，但計算成本卻大大降低，是實現高效大規模應用的關鍵。
多模態學習的協同效應：雖然在單一任務（如預測可及性變異）上，僅用可及性數據訓練的模型表現不錯，但一個整合了所有模態的完全多模態模型，在絕大多數任務，特別是像eQTL預測這樣需要綜合多種調控線索的復雜任務上，表現更佳。這說明不同模態的數據之間存在協同效應，共同促進了模型對調控語言更深層次的理解。

圖7 AlphaGenome消融實驗結果總覽。圖中展示了模型核心設計要素的性能影響，系統呈現目標分辨率、序列長度、集成與蒸餾、多模態學習四大維度的實驗數據，直觀揭示各設計要素對基因組軌跡預測、變異效應預測性能的作用規律。通過量化分析明確關鍵優化方向，是解讀模型性能優勢來源的核心可視化支撐。

結論與展望：通往可編程基因組的新工具

AlphaGenome的出現，標志著我們向真正“讀懂”基因組邁出了堅實的一步。它提供了一個強大的統一框架，能夠從序列出發，以前所未有的廣度、深度和精度預測基因組的多樣功能，并在解讀致病性非編碼變異方面展現出了巨大的潛力。

當然，它并非終點。研究團隊也坦誠地指出了當前模型的局限性，例如對超遠端（>100 kb）調控的捕捉仍有提升空間，對非編碼基因的覆蓋不足，以及對個人基因組變異的預測仍是挑戰。未來的發展方向可能包括：整合更多樣的物種和單細胞數據，融入DNA語言模型，以及開發更完善的偏差校正方法。

盡管如此，AlphaGenome作為一款基礎性工具，其應用前景依然廣闊。在基礎生物學研究中，它可以作為計算機模擬實驗的引擎，快速生成假設，指導濕實驗的驗證。在罕見病診斷中，它的預測可以為那些意義不明的非編碼變異提供關鍵的功能證據。在生物技術領域，它有望用于理性設計具有特定功能的合成序列，如組織特異性增強子或治療性反義寡核苷酸。

正如研究團隊所言，AlphaGenome向著“破譯DNA序列中編碼的復雜細胞過程”這一宏大目標，提供了一個強大的新起點。它不僅是一個預測工具，更是一個幫助我們理解生命之書的新透鏡。

生命復雜性讀書會：

生命復雜系統的構成原理

在生物學中心法則的起點，基因作為生命復雜系統的遺傳信息載體，在生命周期內穩定存在；而位于中心法則末端的蛋白質，其組織構成和時空變化的復雜性呈指數式增長。隨著分子生物學數十年來的突飛猛進，尤其是生命組學（基因組學、轉錄組學、蛋白質組學和代謝組學等的集合）等領域的日新月異，當代生命科學臨近爆發的邊緣。如此海量的數據如何幫助我們揭示宇宙中最復雜的物質系統——“人體”的構成原理和設計原理？闡釋人類發育、衰老和重大疾病的發生機制？

集智俱樂部聯合西湖大學理學院及交叉科學中心講席教授湯雷翰，國家蛋白質科學中心（北京）副研究員常乘、李楊，香港浸會大學助理教授唐乾元，北京大學前沿交叉學科研究院研究員林一瀚，中國科學院分子細胞科學卓越創新中心博士后唐詩婕，共同發起，從微觀細胞尺度、介觀組織器官尺度到宏觀人體尺度，梳理生命科學領域中的重要問題及重要數據，由生物學家提問，希望促進統計物理、機器學習方法研究者和生命科學研究者之間的深度交流，建立跨學科合作關系，激發新的研究思路和合作項目。讀書會目前共進行10期，現在報名參與讀書會可以加入讀書會社群，觀看視頻回放，解鎖完整讀書會權限。

詳情請見：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.