*僅供醫(yī)學(xué)專業(yè)人士閱讀參考
2025年 6 月 25 日,谷歌DeepMind 團(tuán)隊(duì)推出了開(kāi)創(chuàng)性的人工智能模型 AlphaGenome,并在預(yù)印本平臺(tái)同步發(fā)布了題為
AlphaGenome: advancing regulatory variant effect prediction with a unified DNA sequence model的論文。
AlphaGenome 是新一代基因組 AI 模型,可以從最長(zhǎng)可達(dá) 100 萬(wàn)個(gè)堿基的 DNA 序列出發(fā),預(yù)測(cè)上千種與基因調(diào)控相關(guān)的分子屬性,并快速評(píng)估單點(diǎn)變異的功能影響。得益于這種“長(zhǎng)距離+高精度”組合,再配上秒級(jí)的對(duì)照推理,模型可在瞬間給出任何單點(diǎn)突變對(duì)所有調(diào)控層面的功能分?jǐn)?shù)!
在 22 項(xiàng)序列-功能與 26 項(xiàng)變異-效應(yīng)基準(zhǔn)測(cè)試?yán)飵缀跞骖I(lǐng)先,被認(rèn)為可將非編碼突變解析、靶點(diǎn)挖掘和基因調(diào)控療法研發(fā)從“實(shí)驗(yàn)瓶頸”推進(jìn)到“計(jì)算先行”的新階段!
![]()
紀(jì)念斯隆-凱特琳癌癥中心基因組學(xué)家 Caleb Lareau 評(píng)價(jià)稱這項(xiàng)工作“是該領(lǐng)域的里程碑:首次把長(zhǎng)程上下文、單堿基精度和跨任務(wù)最佳表現(xiàn)融于一體”。
《自然》雜志發(fā)表的評(píng)論文章稱,AlphaGenome是破解基因組 98% 非編碼“暗物質(zhì)”的一把新鑰匙。
在人類基因組草圖問(wèn)世近 25 年后,這部長(zhǎng)達(dá) 31 億“字母”的巨著仍有大片內(nèi)容難以讀懂,尤以占 98% 的非編碼區(qū)最為棘手。這些基因暗區(qū)雖然不編碼蛋白質(zhì),但卻可以通過(guò)極為復(fù)雜的機(jī)制調(diào)控蛋白質(zhì)編碼進(jìn)程。
非編碼區(qū)域包含編碼基因的啟動(dòng)子、增強(qiáng)子、剪接信號(hào)、三維折疊“拉鏈”等調(diào)控元件,大量全基因組關(guān)聯(lián)研究(GWAS)發(fā)現(xiàn),超過(guò)九成與復(fù)雜疾病相關(guān)的遺傳信號(hào)都落在這些區(qū)域。非編碼區(qū)域好比隱藏的調(diào)音臺(tái):微小突變可能就會(huì)改變基因何時(shí)、何地、以多大力度表達(dá),牽動(dòng)發(fā)育、免疫、代謝乃至腫瘤發(fā)生的整體網(wǎng)絡(luò)。
因此,深入解析非編碼區(qū)域不僅能解釋傳統(tǒng)“蛋白序列無(wú)異常卻患病”的謎團(tuán),還為靶點(diǎn)發(fā)現(xiàn)、基因調(diào)控療法(如 ASO、CRISPR-a/i)打開(kāi)新通道,是精準(zhǔn)醫(yī)學(xué)不可或缺的突破口。
![]()
在 AlphaGenome 出現(xiàn)之前,研究者想要弄清非編碼 DNA 對(duì)疾病的影響往往受限于“三大瓶頸”。
一是實(shí)驗(yàn)通量低:要驗(yàn)證一個(gè)遠(yuǎn)程增強(qiáng)子或剪接信號(hào)是否真能調(diào)節(jié)基因,需要逐級(jí)進(jìn)行多項(xiàng)實(shí)驗(yàn),動(dòng)輒幾個(gè)月,成本巨大。
第二,傳統(tǒng)算法無(wú)法兼顧長(zhǎng)度和精度。早期模型要么聚焦幾百個(gè)堿基的小窗口卻看不見(jiàn)長(zhǎng)距離環(huán)路;要么增大到幾十萬(wàn)堿基卻丟失單堿基分辨率,無(wú)法同時(shí)捕捉微小突變和百萬(wàn)級(jí)上下文。
三是信息割裂,基因表達(dá)、染色質(zhì)開(kāi)放、轉(zhuǎn)錄因子結(jié)合和 3D 結(jié)構(gòu)等調(diào)控讀數(shù)被分散在不同數(shù)據(jù)庫(kù)和獨(dú)立工具里,缺乏“一站式”整合,給科研工作帶來(lái)很多不便。
而AlphaGenome可以一次閱讀最長(zhǎng) 100 萬(wàn)個(gè)堿基的 DNA 片段,并且在單堿基分辨率上同時(shí)輸出上千項(xiàng)讀數(shù):從轉(zhuǎn)錄起止位點(diǎn)、RNA 剪接量,到染色質(zhì)開(kāi)放度、3D 環(huán)路、蛋白結(jié)合位點(diǎn)等十多個(gè)調(diào)控模態(tài)。
得益于這種“長(zhǎng)距離+高精度”組合,再配上秒級(jí)的對(duì)照推理,模型可在瞬間給出任何單點(diǎn)突變對(duì)所有調(diào)控層面的功能分?jǐn)?shù)。在 DeepMind 的演示中,AlphaGenome 準(zhǔn)確預(yù)判了與白血病相關(guān)的某些非編碼突變會(huì)間接激活鄰近致癌基因。
![]()
當(dāng)然,目前的 AlphaGenome 還處于「嬰兒」階段。目前該模型僅使用人類與小鼠數(shù)據(jù)訓(xùn)練,尚未針對(duì)其他物種或個(gè)人基因組做全面驗(yàn)證;對(duì)跨越十萬(wàn)堿基以上的遠(yuǎn)程調(diào)控預(yù)測(cè)也仍待改進(jìn)。
冷泉港實(shí)驗(yàn)室計(jì)算生物學(xué)家 Peter Koo 指出,AlphaGenome 還未納入細(xì)胞動(dòng)態(tài)變化因素,例如蛋白質(zhì)水平和 DNA 化學(xué)修飾的時(shí)空波動(dòng)。Koo 預(yù)計(jì),未來(lái)研究人員將借助 AlphaGenome 設(shè)計(jì)精準(zhǔn)調(diào)控 DNA 序列,或通過(guò)虛擬實(shí)驗(yàn)?zāi)M細(xì)胞對(duì)遺傳變動(dòng)的反應(yīng)。目前,非商業(yè)研究者已可通過(guò)編程接口訪問(wèn)模型,更完整的開(kāi)放版本也在規(guī)劃中。
DeepMind 也呼吁學(xué)術(shù)界通過(guò)新開(kāi)放的 AlphaGenome API 共同驗(yàn)證與擴(kuò)展模型,期望“與全球研究者一道,將對(duì) DNA 指令的理解推向新的深度”,并明確指出未來(lái)還將把模型能力延伸到更多物種、更多組織類型和更多調(diào)控模態(tài),以支撐精準(zhǔn)醫(yī)學(xué)和合成生物學(xué)的下一波突破。
總之,奇點(diǎn)已近!
![]()
參考文獻(xiàn):
https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.