![]()
撰文丨王聰
編輯丨王多魚
排版丨水成文
近年來,人工智能(AI)在生命科學領域的最重要的突破莫過于AlphaFold,這款由 DeepMind 推出的 AI 工具能夠僅根據氨基酸序列就實現對蛋白質三維結構的精準預測,并獲得了諾貝爾獎的認可。
而最近,DeepMind 推出了一款新型 AI 工具——AlphaGenome,這是一個全新的DNA 序列模型,能夠更全面、更準確地預測人類 DNA 序列中的單堿基突變如何影響調控基因的多種生物學過程,該模型能夠處理高達 100萬堿基對的長 DNA 序列,高精度地預測廣泛的基因組特征和突變效應,從而有助于查明遺傳疾病的病因,指導合成 DNA 的設計,加速對基因組(尤其是非編碼基因組)的基本理解。
該研究于 2026 年 1 月 28 日發表于Nature期刊,論文題為:Advancing regulatory variant effect prediction with AlphaGenome,并被選為當期封面論文。
DeepMind表示,相信 AlphaGenome 能夠成為科學界的一項寶貴資源,幫助科學家更好地理解基因組功能、疾病生物學,最終推動新的生物學發現以及新療法的開發。
基因組是我們的細胞操作手冊。它是完整的 DNA 集合,幾乎指導著生物體的每一個部分,從外觀和功能到生長和繁殖。基因組 DNA 序列的細微變化可能會改變生物體對環境的反應或其對疾病的易感性。但要解讀基因組指令在分子層面是如何被讀取的——以及當 DNA 發生微小變化時會發生什么——仍是生物學最大的謎團之一。
實際上,在科學家完成人類基因組草圖近 25 年后的今天,人類基因組中絕大部分對我們來說仍然是個謎,占基因組98%的非編碼序列尤其令人困惑,它們不編碼蛋白質,但發揮著重要的調控作用。這就好比我們擁有了一本“生命之書”,但只認識其中 2% 的文字,對于剩下的 98%,我們雖然知道其很重要,卻不知其含義。
2020 年,DeepMind 推出AlphaFold2,大大推進了解決困擾研究人員數十年的問題的進程:蛋白質序列如何影響其三維結構。
而要弄清楚 DNA 序列的作用則有所不同,因為不像 AlphaFold2 提供的蛋白質三維結構那樣只有一個答案。實際上,一段 DNA 序列會有眾多相互關聯的作用——從吸引一組細胞機制附著到染色體的特定部分并將附近的基因轉錄成 RNA 分子,到吸引影響基因表達位置、時間和程度的蛋白質轉錄因子。例如,許多 DNA 序列通過改變染色體的 3D 形狀來影響基因活性,要么限制要么促進轉錄機制的接近。
幾十年來,生物學家們一直在利用各種計算工具來研究這個問題。在過去十年左右的時間里,科學家們開發了數十種 AI 模型來解讀基因組。其中許多模型專注于單一任務,比如預測基因表達水平或確定單個基因中的外顯子是如何被剪切和拼接成不同蛋白質的。但科學家們越來越對能夠“All in One”解讀 DNA 序列的工具感興趣。
AlphaGenome 為何與眾不同
在這項研究中,研究團隊推出了一個統一的 DNA 序列模型——AlphaGenome,該模型能夠處理高達 100萬堿基對的長 DNA 序列,高精度地預測廣泛的基因組特征和突變效應。
與之前的基因組模型相比,AlphaGenome 在三個方面實現了重大突破——
第一,兼顧“遠景”與“近景”
以前的模型只能在“看遠景”和“察細節”之間二選一:要么分析長序列但失去精細度,要么保持精細度但只能看短序列。AlphaGenome 通過創新的算法架構,首次實現了在 100 萬個堿基對長度上保持單堿基分辨率的分析能力。
第二,多任務統一處理
AlphaGenome 可以同時預測數千種分子特性,包括基因的起止位置、RNA 剪接位點、DNA 可及性、蛋白質結合位點等。這意味著研究人員不再需要為不同任務使用多個專用模型,一個 AlphaGenome 就能全面解析。
第三,高效的突變影響評估
AlphaGenome 能在一秒鐘內評估基因突變對所有這些分子特性的影響,通過比較突變序列與正常序列的預測結果,快速識別可能導致疾病的遺傳變異。
技術核心:卷積與 Transformer 的完美結合
AlphaGenome 的架構設計巧妙結合了兩種先進的神經網絡技術。
卷積神經網絡如同微距鏡頭,負責識別 DNA 序列中的局部模式——比如那些短暫的調控信號和蛋白質結合位點。這就像在文本中識別單詞和短語一樣,卷積層能夠捕捉 DNA 中的“遺傳詞語”。
隨后,Transformer 模塊扮演廣角鏡頭的角色,在整個序列的任意位置之間建立聯系,理解全局語境。這使得模型能夠把握長距離的調控關系,比如當一個增強子遠離它調控的基因時,這種關系依然能被識別。
這種設計讓 AlphaGenome 既見樹木,又見森林。
![]()
AlphaGenome 模型架構
性能卓越:全面超越現有模型
在嚴格的基準測試中,AlphaGenome 表現驚人。
在 24 項 DNA 序列功能預測任務中,AlphaGenome 在 22 項中實現了最先進性能(SOTA);在 26 項遺傳變異影響預測任務中,AlphaGenome 在 24 項中實現了最先進性能(SOTA)。
特別值得注意的是,比較對象包括許多專門為特定任務優化的“專用模型”,而AlphaGenome 作為一個“通用模型”,在絕大多數任務中都表現更優。這打破了“專用模型總是優于通用模型”的傳統認知。
AlphaGenome 模型的架構、訓練方案及全面性能評估
從實驗室到現實:AlphaGenome 的實際應用
AlphaGenome 不僅理論性能卓越,在實際生物醫學研究中也展現出強大應用價值。
疾病機制解析:研究團隊使用 AlphaGenome 來探究一種與癌癥相關的突變的潛在機制。在一項現有的T 細胞急性淋巴細胞白血病(T-ALL)患者研究中,研究團隊觀察到基因組中非編碼區域存在突變。AlphaGenome 預測這些非編碼基因突變會通過引入一個 MYB DNA 結合基序,激活附近的一個名為TAL1的基因,而
TAL1是一個已知的致癌基因,這突顯了 AlphaGenome 將特定非編碼基因突變與疾病基因相關聯的能力。
罕見遺傳病研究:許多罕見遺傳病(例如脊髓性肌萎縮癥和某些形式的囊性纖維化)由 RNA 剪接錯誤引起。AlphaGenome 能夠直接從 DNA 序列預測剪接位點的位置和表達水平,為理解這些疾病提供了新工具。
合成生物學設計:AlphaGenome 的預測能力可用于指導設計具有特定調控功能的合成 DNA 序列,例如設計僅在神經細胞中激活、在肌肉細胞中保持沉默的基因開關,為精準基因治療奠定基礎。
未來展望:生命科學的新紀元
AlphaGenome 的出現,標志著基因組 AI 模型從“單項專家”向“通用翻譯官”的重要轉變。
結合 DeepMind 之前的突破性成果(例如蛋白質結構預測模型 AlphaFold 和編碼區突變預測模型 AlphaMissense),科學界正在構建一個前所未有的“基因組集成開發環境”。這種發展代表了生物學研究范式的根本轉變——從描述性科學轉向預測性科學。未來,研究人員不僅可以觀察生命現象,還可以預測遺傳改變的影響,甚至設計特定的生命功能。
如果說 DNA 是生命的代碼,那么 AlphaGenome 就是我們理解和編輯這一代碼的強大解碼器(DNA Decoder)。AlphaGenome 為分析調控基因組提供了一個強大且統一的模型,它提升了我們從 DNA 序列預測分子功能和突變效應的能力,為生物學發現提供了有價值的新工具,并在生物技術領域開啟了應用之門。最終,AlphaGenome 成為了朝著更廣泛的科學目標——解讀 DNA 序列中編碼的復雜細胞過程邁出的基礎性一步。
論文鏈接:
https://www.nature.com/articles/s41586-025-10014-0
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.