潮新聞 記者 楊千瑩 陳寧
讀懂人類基因組中全部30億個堿基對,需要多久?
在約半個多世紀的時間里,科學家們解碼了30億中的2%;而在人工智能的加持下,只用短短幾天,便順利讀完了剩余的98%。這個驚人的對比,向我們展示了AI的強大力量。就在上個月,谷歌深層思維公司(DeepMind)研發(fā)的AI模型AlphaGenome登上《自然》期刊封面。這個能一次性讀入100萬個DNA(脫氧核糖核酸)堿基對的模型,讓人們驚覺:生命科學的研究范式已然改變。
事實上,在“人工智能+科學研究”的趨勢下,AI與生命健康領(lǐng)域的基礎(chǔ)研究早已頻繁“牽手”。從2024年諾貝爾化學獎授予能預測蛋白質(zhì)結(jié)構(gòu)的AlphaFold(阿爾法折疊,谷歌深層思維公司開發(fā)的人工智能模型),到谷歌研發(fā)出AlphaGenome,全球范圍內(nèi),AI的角色已從回答“是什么”,轉(zhuǎn)向開始追問“為什么”,甚至能夠預判“會怎樣”。
這股浪潮之中,浙江的實驗室也紛紛借“AI之手”,競相開發(fā)基因組解讀、藥物靶點開發(fā)、疾病預斷等醫(yī)學AI大模型。
走訪良渚實驗室、中國科學院杭州醫(yī)學研究所、杭州華大生命科學研究院等科研機構(gòu),我們驚喜地發(fā)現(xiàn),在創(chuàng)新的源頭環(huán)節(jié),醫(yī)學基礎(chǔ)研究已與AI碰撞出諸多火花,觸發(fā)科學家新的思考。
“無人區(qū)”的探索者
搜索、整合、加速……AI的進行時遠不止于此。在醫(yī)學的源頭,AI不僅是輔助提效的工具,更能探索人所不能及之處。
2024年,北京大學劉君課題組及清華大學楊雪瑞課題組與中國科學院杭州醫(yī)學研究所合作,在《細胞》期刊上發(fā)表論文,揭示了癌癥發(fā)生的新機制,這一發(fā)現(xiàn),離不開AI的強大助力。
細胞的癌變,由一系列基因突變積累而成。RNA(核糖核酸)作為DNA和蛋白質(zhì)之間的信息傳遞者,如果攜帶突變基因,就會助長癌細胞的分裂增殖。
研究團隊正是通過AI,精準識別出RNA中突變堿基上特別的“修飾物”,從而阻斷攜帶“修飾物”的堿基與蛋白質(zhì)接觸,進而阻止癌細胞的增殖。
找到這個“修飾物”有多難?
中國科學院杭州醫(yī)學研究所醫(yī)學人工智能中心副主任張亮研究員參與了該研究AI算法的開發(fā),他為我們打了個通俗的比方:“就像在地上撒一把沙子,傳統(tǒng)的方法是用肉眼觀察,找到帶有磁性的微粒,而AI就像一塊吸鐵石。”
張亮說,比如一條30個單位長度的蛋白質(zhì)短序列,只在其中4種氨基酸中尋找,也有近3萬種可能。
張亮用“撞”來形容這個過程——面對如此龐大且無規(guī)律可循的數(shù)據(jù)量,人只能隨機試驗,而AI卻能在算力支撐下精準快速地找到位置。
窮舉所有可能性,是科研人員以往不會去做的事,而AI耐心高效地補上了生命科學領(lǐng)域一塊塊細碎的拼圖。
這些“無人區(qū)”,不僅有人類不會探索之地,還有人類不能探索之地。
![]()
郭國驥(左一)團隊正在進行實驗。 受訪者供圖
在良渚實驗室,浙江大學血液學研究所副所長、浙江大學醫(yī)學院教授郭國驥團隊開發(fā)的多任務(wù)深度學習模型“女媧CE”正一遍遍地運行,演算著更多可能性。
黑底的電腦屏幕上,團隊成員、浙江大學良渚實驗室百人計劃研究員王晶晶輕點鼠標,導入模型,“女媧CE”便開始運轉(zhuǎn)。一行行代碼迅速從眼前閃過,不到2秒,模型就給出了19個突變的所有可能結(jié)果。
“有些突變在自然或?qū)嶒炛邪l(fā)生幾率極低,通過AI可以模擬這類型的突變。”王晶晶打開一張表格,這是模型剛剛算出的預測值、細胞類型和突變種類,接下來,只需按預測值從高到低排序,便能初步得知這些突變對于基因調(diào)控的影響。
預測突變影響、讀懂“基因調(diào)控”,是什么概念?
人類基因組中,編碼序列僅占1%至2%,剩余98%都是包含調(diào)控序列的非編碼序列。這剩下98%,在很長一段時間內(nèi)無法被人理解。
“2003年完成的人類基因組計劃,也只是繪制出一個模糊粗糙的草圖。”郭國驥解釋,傳統(tǒng)的研究方法,是將表型還原到某個基因,但在調(diào)控序列中,有無數(shù)細小的“開關(guān)”,其規(guī)則極其龐雜,很難倒推。
而不讀懂這些“開關(guān)”如何工作,就意味著許多疾病的成因無法被解釋。“簡單來說,比如一些人的基因上某個位點是腺嘌呤(A),就容易導致老年癡呆,而位點是鳥嘌呤(G)的人群就不容易患病。”王晶晶說,AI能由果溯因,從疾病表型倒推回是哪個位點出了問題。
基于一維DNA序列,“女媧CE”已經(jīng)能預測其在任意脊椎動物單細胞中的染色質(zhì)可及性水平。基因表達遵循“DNA—RNA—蛋白質(zhì)”的順序,解析表達就像參考“二手資料”,而直接解析DNA開放片段,就像研讀“一手資料”,更能找到本質(zhì)規(guī)律。
快速計算“最優(yōu)路徑”
基礎(chǔ)生命科學研究領(lǐng)域,答案往往藏在無垠混沌之中。
人類生命,這個高度復雜的系統(tǒng),包含著無法估量的“數(shù)據(jù)”。成年男性體內(nèi)平均有大約36萬億個細胞,而成年女性體內(nèi)平均有28萬億個細胞。深入細胞之中,蛋白質(zhì)、RNA、堿基對等更加微觀的物質(zhì),更是數(shù)不勝數(shù)。
“以前做一個物種的解讀,需要多家實驗室一起研究4至5年,但在‘女媧CE’的幫助下,現(xiàn)在只需要1天。”郭國驥感慨。
![]()
郭國驥團隊成員正在進行實驗。受訪者供圖
2025年10月,杭州華大生命科學研究院發(fā)布的人類基因組基礎(chǔ)模型Genos,其參數(shù)已經(jīng)達到了驚人的百億規(guī)模。
杭州華大生命科學研究院領(lǐng)域首席科學家劉石平告訴我們,當時,Genos的訓練數(shù)據(jù)只用了全球范圍內(nèi)636個人類基因組,而現(xiàn)在,他們正在朝著千億規(guī)模進發(fā)。
在極其龐大的數(shù)據(jù)量面前,“觀察—假設(shè)—驗證”的傳統(tǒng)科研范式已經(jīng)逐漸顯露出局限性。AI的介入,為那些過去無法解決的重大科學難題提供了新的方案。
采訪時,劉石平拿起一株花解釋Genos訓練數(shù)據(jù)的方式:“傳統(tǒng)數(shù)據(jù)分析,就像把莖切成一段段,逐段分析后拼湊成一個圖,這些信息是斷裂不完整的。而我們用以訓練Genos的‘端粒到端粒’水平的基因組,就像直接把整根莖扔進AI模型,得出信息的完整度大大提升。”
更重要的是,人體作為一個多維系統(tǒng),往往超出人類認知的處理極限。而AI提供了一種對高維度解讀的可能性。
“比如磁共振儀掃描人體后,能得出一個靜態(tài)三維人體圖像,但對更高維的動態(tài)圖像刻畫存在明顯局限。”張亮解釋,高維的信息是無法被低維采集和理解的,除非將高維信息投射到低維——比如三維的球投在二維平面上,就成了一個圓。但這個過程會損失很多信息。要想直接看見肌肉層、血管細節(jié)或血流結(jié)構(gòu)等,目前單一數(shù)據(jù)采集的精度還遠遠不夠。
在紛亂復雜的碎片中,AI可以綜合多個維度的信息,在理論上成立、現(xiàn)實中無法模擬的理想環(huán)境中,進行推理分析,并得出規(guī)律。
上海人工智能實驗室雙聘青年科學家孫思琦認為,這一能力,讓AI在“模式識別”(如看懂病理切片)、“高維搜索”(如在海量化合物中篩選藥物苗頭)和 “生成預測”(如預測RNA三級結(jié)構(gòu))上已經(jīng)展現(xiàn)出超越人類的效率,極大縮短試錯周期。
2025年,張亮團隊以靶點發(fā)現(xiàn)和核酸分子設(shè)計算法為核心,把AI設(shè)計直接導入真實藥物研發(fā)與臨床轉(zhuǎn)化,將傳統(tǒng)方法需要數(shù)月的分子設(shè)計周期,降低到以周為單位。
![]()
AI助力腫瘤藥物開發(fā)原理圖。受訪者供圖
在腫瘤藥物研發(fā)中,找到合適靶點是關(guān)鍵步驟。這個過程,首先要快速;其次要精準。
“如果沒有AI的幫助,幾乎不可能做成這件事。”張亮說。在這項研究中,AI發(fā)揮了極關(guān)鍵的作用——精準地在患者的腫瘤組織中預測出“重要的突變”,并據(jù)此預測新抗原。
突變,把模糊的疾病癥狀定格成具體的“鎖”,而藥物研發(fā)就是為這把“鎖”配出合適的“鑰匙”。
什么叫“重要的突變”?張亮說,腫瘤組織中有大量突變,但只有少部分既能被免疫系統(tǒng)識別,又具備成藥潛力。“重要的突變”,意味著它可以被當作潛在治療靶點或新抗原來源,進而導向新藥的研發(fā)。“比如甲類型的突變,只有幾位患者體內(nèi)有,那么據(jù)此制成的新藥只對這幾個人有效。而乙類型的突變是通用的,據(jù)此制成的新藥可以給患有某一種疾病的患者使用。我們的目標就是找到后者。”
傳統(tǒng)流程中,從患者數(shù)據(jù)中人為篩選出合適靶點,需要耗費巨量時間精力。且不同組織、個體間差異極大,這其中包含成萬上億種可能。
浙江大學醫(yī)學院附屬第一醫(yī)院余杭院區(qū)副院長及病理科主任章京教授為我們解釋了這個繁復過程:“大約需要十幾到二十名研究人員連續(xù)工作一個月,才能系統(tǒng)梳理一個小分子的可能路徑,且最終選出的靶點未必可用。”而有了AI的幫助,原本將近十年的研發(fā)過程,已經(jīng)被縮短至一至兩年。
“它就像現(xiàn)在的地圖軟件,輸入目的地和出發(fā)點,AI就能自動計算出幾條最優(yōu)路徑。”張亮說。
“模仿游戲”的未來式
“你想來場游戲嗎?判斷對方到底是機器還是真正的人?”
1950年,“人工智能之父”圖靈提出了“模仿游戲”,即著名的“圖靈測試”。一直到現(xiàn)在,它都是評估AI智能程度的經(jīng)典方法。
70多年過去,隨著AI不斷迫近甚至超越人類智力,圖靈的預言似乎已經(jīng)實現(xiàn),這讓那個不可避免的問題再次出現(xiàn)——
人,還能做什么?
“AI的性能強弱,很大程度上取決于‘喂’給模型的數(shù)據(jù)質(zhì)量高低。而判別并挑選出高質(zhì)量數(shù)據(jù),目前只有人能做到。”采訪中,多位專家表達了這一相同觀點。
數(shù)據(jù)、算力和算法,是決定AI能力的基礎(chǔ)因素。最新數(shù)據(jù)顯示,我國智能算力規(guī)模已超過1590EFLOPS(每秒百億億次運算),位居全球前列。而目前多數(shù)算法均為開源(可公開訪問),只有高質(zhì)量的數(shù)據(jù)仍然稀缺。
“高質(zhì)量的數(shù)據(jù),對于目前AI性能的影響極為關(guān)鍵。”在訓練“女媧CE”的過程中,郭國驥團隊自主研發(fā)出單細胞百萬級測序技術(shù)UUATAC-seq。“數(shù)據(jù)質(zhì)量提升后,困擾我們很久的瓶頸驟然松動。”
郭國驥說,相比傳統(tǒng)細胞系中雜亂的分子信息,單細胞水平的數(shù)據(jù),分子信息更多、不容易丟失,且不帶人為偏見,非常適合AI理解學習。
多模態(tài)數(shù)據(jù)的對齊、高質(zhì)量數(shù)據(jù)的開放共享,已經(jīng)成為未來的發(fā)展方向。
多模態(tài),意味著數(shù)據(jù)充分、完整、準確、真實、覆蓋多個維度。目前,不同實驗室、不同醫(yī)院、不同研究目標下產(chǎn)生的數(shù)據(jù),往往缺乏統(tǒng)一標準。即便在臨床場景中,數(shù)據(jù)的記錄方式、完整程度也存在巨大差異。這意味著,在數(shù)據(jù)轉(zhuǎn)化為AI的“燃料”之前,仍需要大量科研人員進行處理。
“從海量數(shù)據(jù)中篩選高質(zhì)量數(shù)據(jù)、將數(shù)據(jù)轉(zhuǎn)換成AI能理解的語言、在訓練中不斷調(diào)整模型架構(gòu)、再進行不斷評測與優(yōu)化,這個過程中的每一步都仍然需要人力牽引。”劉石平說。
某種程度上,當前的AI并非“自動駕駛”,而更像是需要人類不斷喂養(yǎng)優(yōu)質(zhì)養(yǎng)料的超級外腦。
也許,AI在許多已知的問題上已經(jīng)超越人類能力,但在基礎(chǔ)科研領(lǐng)域那些完全未知的地圖上,AI仍不擅長完成“從0到1”的過程。
“AI本質(zhì)上是基于數(shù)據(jù)的概率模型。”孫思琦說,它擅長解答“How”(如何優(yōu)化路徑),但往往無法獨立提出“Why”(科學機制的解釋),因此,科學家的直覺和洞察力是不可替代的。
在上海人工智能實驗室主任、首席科學家周伯文看來,在全新復雜的科研問題中,AI的預測能力將會遭遇瓶頸,比如AlphaFold能預測蛋白質(zhì)結(jié)構(gòu),但尚不能通過分析模型本身來揭示蛋白質(zhì)折疊的原理。
“AI可以在既有數(shù)據(jù)框架內(nèi)判別哪種模式更優(yōu),但如果讓AI確定一種新方法好不好、可不可行,這還遠遠不夠。”章京認為,跨界聯(lián)想與創(chuàng)造性假設(shè)——這種“跳出數(shù)據(jù)”的能力,仍然高度依賴人類思維。
而在醫(yī)學領(lǐng)域,人類的決策能力更顯現(xiàn)出不可取代的特性。
“當前的AI模型,的確能做到無限趨近高準確率,但醫(yī)學不容許‘接近正確’,只要這個數(shù)字不是100%,我們就必須慎重,因為承擔風險的是患者。”章京說。
目前,大部分AI模型仍屬于弱人工智能(Narrow AI),在特定的任務(wù)和領(lǐng)域中表現(xiàn)出色,但缺乏跨場景泛化能力,無法自主思考、決策或創(chuàng)新。當前AI界流行的“世界模型”(World Models)、“強人工智能”(General AI)、“通用人工智能”(AGI)等概念,其實都在朝著同一個目標努力——讓AI能像人類一樣理解世界。
圖靈的回旋鏢,在70多年后又飛回我們面前。
【記者手記】
我們始終掌握“駛向何方”
陳寧
在中國科學院杭州醫(yī)學研究所采訪張亮的時候,他很形象地用“車載導航”形容AI之于基礎(chǔ)研究的意義。兩個地點之間也許有30種路線,“但AI能告訴你‘最優(yōu)路徑’”。
我們順勢發(fā)問:“但不管哪種路徑,司機得是人,對吧?”他完全同意我們的比喻。
從策劃AI助力生命健康領(lǐng)域基礎(chǔ)研究的選題,到著手采訪、寫作,我們不斷“提醒”自己:在呼嘯而來的人工智能浪潮中,尤其在嚴肅的科學研究領(lǐng)域,人始終是主導。
但與科研人員對話時,我們發(fā)現(xiàn),這種“提醒”顯得有些多余。當他們在實驗室里,與這些瞬息萬變、看似無所不能的算法打著交道時,自始至終能清醒地認識到AI目前尚存的短板:無法獨立決策、創(chuàng)新思維有限、精準度達不到100%……
回顧現(xiàn)代科學的發(fā)展歷程,我們一次次感嘆人與技術(shù)的“牽手”給世界帶來無限驚喜,但人與技術(shù)的辯證關(guān)系也幾乎貫穿始終——一個多世紀來,汽車從問世到普及,從“蹣跚起步”到日行千里,即便現(xiàn)在新型電車不斷顛覆人們的認知,但我們清醒地知道,速度的上限、駕駛體驗的邊界,始終掌握在人的手上;20世紀初期,抗生素的問世令人驚呼現(xiàn)代醫(yī)學的偉大,但也正是科學家們及時發(fā)現(xiàn)了它的“耐藥性”危機,醫(yī)學才朝著更有利于人類健康的方向穩(wěn)步前行;今天,各行各業(yè)都深度依賴計算機和網(wǎng)絡(luò)技術(shù)的突飛猛進,我們深知,只有人能守住信息安全,防住網(wǎng)絡(luò)暴力的“漩渦”。
用辯證的眼光看待技術(shù),是源于科學研究“用之于人”的天然屬性。在加快打造人工智能創(chuàng)新發(fā)展高地的進程中,掌握了方向,我們便能坦然擁抱“AI+”:只有對人工智能的短板、可能產(chǎn)生的風險有足夠了解,才能滋養(yǎng)一方足夠包容的創(chuàng)新土壤;也只有清醒認識到人的主導作用,才有足夠的底氣打開更為廣闊的創(chuàng)新空間。
“轉(zhuǎn)載請注明出處”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.