多家實驗室發(fā)布醫(yī)學AI模型當AI開始追問“為什么”

2026-02-23 12:29:40　來源: 呼呼歷史論

遼寧舉報

分享至

潮新聞記者楊千瑩陳寧

讀懂人類基因組中全部30億個堿基對，需要多久？

在約半個多世紀的時間里，科學家們解碼了30億中的2%；而在人工智能的加持下，只用短短幾天，便順利讀完了剩余的98%。這個驚人的對比，向我們展示了AI的強大力量。就在上個月，谷歌深層思維公司（DeepMind）研發(fā)的AI模型AlphaGenome登上《自然》期刊封面。這個能一次性讀入100萬個DNA（脫氧核糖核酸）堿基對的模型，讓人們驚覺：生命科學的研究范式已然改變。

事實上，在“人工智能+科學研究”的趨勢下，AI與生命健康領(lǐng)域的基礎(chǔ)研究早已頻繁“牽手”。從2024年諾貝爾化學獎授予能預測蛋白質(zhì)結(jié)構(gòu)的AlphaFold（阿爾法折疊，谷歌深層思維公司開發(fā)的人工智能模型），到谷歌研發(fā)出AlphaGenome，全球范圍內(nèi)，AI的角色已從回答“是什么”，轉(zhuǎn)向開始追問“為什么”，甚至能夠預判“會怎樣”。

這股浪潮之中，浙江的實驗室也紛紛借“AI之手”，競相開發(fā)基因組解讀、藥物靶點開發(fā)、疾病預斷等醫(yī)學AI大模型。

走訪良渚實驗室、中國科學院杭州醫(yī)學研究所、杭州華大生命科學研究院等科研機構(gòu)，我們驚喜地發(fā)現(xiàn)，在創(chuàng)新的源頭環(huán)節(jié)，醫(yī)學基礎(chǔ)研究已與AI碰撞出諸多火花，觸發(fā)科學家新的思考。

“無人區(qū)”的探索者

搜索、整合、加速……AI的進行時遠不止于此。在醫(yī)學的源頭，AI不僅是輔助提效的工具，更能探索人所不能及之處。

2024年，北京大學劉君課題組及清華大學楊雪瑞課題組與中國科學院杭州醫(yī)學研究所合作，在《細胞》期刊上發(fā)表論文，揭示了癌癥發(fā)生的新機制，這一發(fā)現(xiàn)，離不開AI的強大助力。

細胞的癌變，由一系列基因突變積累而成。RNA（核糖核酸）作為DNA和蛋白質(zhì)之間的信息傳遞者，如果攜帶突變基因，就會助長癌細胞的分裂增殖。

研究團隊正是通過AI，精準識別出RNA中突變堿基上特別的“修飾物”，從而阻斷攜帶“修飾物”的堿基與蛋白質(zhì)接觸，進而阻止癌細胞的增殖。

找到這個“修飾物”有多難？

中國科學院杭州醫(yī)學研究所醫(yī)學人工智能中心副主任張亮研究員參與了該研究AI算法的開發(fā)，他為我們打了個通俗的比方：“就像在地上撒一把沙子，傳統(tǒng)的方法是用肉眼觀察，找到帶有磁性的微粒，而AI就像一塊吸鐵石。”

張亮說，比如一條30個單位長度的蛋白質(zhì)短序列，只在其中4種氨基酸中尋找，也有近3萬種可能。

張亮用“撞”來形容這個過程——面對如此龐大且無規(guī)律可循的數(shù)據(jù)量，人只能隨機試驗，而AI卻能在算力支撐下精準快速地找到位置。

窮舉所有可能性，是科研人員以往不會去做的事，而AI耐心高效地補上了生命科學領(lǐng)域一塊塊細碎的拼圖。

這些“無人區(qū)”，不僅有人類不會探索之地，還有人類不能探索之地。

郭國驥（左一）團隊正在進行實驗。受訪者供圖

在良渚實驗室，浙江大學血液學研究所副所長、浙江大學醫(yī)學院教授郭國驥團隊開發(fā)的多任務(wù)深度學習模型“女媧CE”正一遍遍地運行，演算著更多可能性。

黑底的電腦屏幕上，團隊成員、浙江大學良渚實驗室百人計劃研究員王晶晶輕點鼠標，導入模型，“女媧CE”便開始運轉(zhuǎn)。一行行代碼迅速從眼前閃過，不到2秒，模型就給出了19個突變的所有可能結(jié)果。

“有些突變在自然或?qū)嶒炛邪l(fā)生幾率極低，通過AI可以模擬這類型的突變。”王晶晶打開一張表格，這是模型剛剛算出的預測值、細胞類型和突變種類，接下來，只需按預測值從高到低排序，便能初步得知這些突變對于基因調(diào)控的影響。

預測突變影響、讀懂“基因調(diào)控”，是什么概念？

人類基因組中，編碼序列僅占1%至2%，剩余98%都是包含調(diào)控序列的非編碼序列。這剩下98%，在很長一段時間內(nèi)無法被人理解。

“2003年完成的人類基因組計劃，也只是繪制出一個模糊粗糙的草圖。”郭國驥解釋，傳統(tǒng)的研究方法，是將表型還原到某個基因，但在調(diào)控序列中，有無數(shù)細小的“開關(guān)”，其規(guī)則極其龐雜，很難倒推。

而不讀懂這些“開關(guān)”如何工作，就意味著許多疾病的成因無法被解釋。“簡單來說，比如一些人的基因上某個位點是腺嘌呤（A），就容易導致老年癡呆，而位點是鳥嘌呤（G）的人群就不容易患病。”王晶晶說，AI能由果溯因，從疾病表型倒推回是哪個位點出了問題。

基于一維DNA序列，“女媧CE”已經(jīng)能預測其在任意脊椎動物單細胞中的染色質(zhì)可及性水平。基因表達遵循“DNA—RNA—蛋白質(zhì)”的順序，解析表達就像參考“二手資料”，而直接解析DNA開放片段，就像研讀“一手資料”，更能找到本質(zhì)規(guī)律。

快速計算“最優(yōu)路徑”

基礎(chǔ)生命科學研究領(lǐng)域，答案往往藏在無垠混沌之中。

人類生命，這個高度復雜的系統(tǒng)，包含著無法估量的“數(shù)據(jù)”。成年男性體內(nèi)平均有大約36萬億個細胞，而成年女性體內(nèi)平均有28萬億個細胞。深入細胞之中，蛋白質(zhì)、RNA、堿基對等更加微觀的物質(zhì)，更是數(shù)不勝數(shù)。

“以前做一個物種的解讀，需要多家實驗室一起研究4至5年，但在‘女媧CE’的幫助下，現(xiàn)在只需要1天。”郭國驥感慨。

郭國驥團隊成員正在進行實驗。受訪者供圖

2025年10月，杭州華大生命科學研究院發(fā)布的人類基因組基礎(chǔ)模型Genos，其參數(shù)已經(jīng)達到了驚人的百億規(guī)模。

杭州華大生命科學研究院領(lǐng)域首席科學家劉石平告訴我們，當時，Genos的訓練數(shù)據(jù)只用了全球范圍內(nèi)636個人類基因組，而現(xiàn)在，他們正在朝著千億規(guī)模進發(fā)。

在極其龐大的數(shù)據(jù)量面前，“觀察—假設(shè)—驗證”的傳統(tǒng)科研范式已經(jīng)逐漸顯露出局限性。AI的介入，為那些過去無法解決的重大科學難題提供了新的方案。

采訪時，劉石平拿起一株花解釋Genos訓練數(shù)據(jù)的方式：“傳統(tǒng)數(shù)據(jù)分析，就像把莖切成一段段，逐段分析后拼湊成一個圖，這些信息是斷裂不完整的。而我們用以訓練Genos的‘端粒到端粒’水平的基因組，就像直接把整根莖扔進AI模型，得出信息的完整度大大提升。”

更重要的是，人體作為一個多維系統(tǒng)，往往超出人類認知的處理極限。而AI提供了一種對高維度解讀的可能性。

“比如磁共振儀掃描人體后，能得出一個靜態(tài)三維人體圖像，但對更高維的動態(tài)圖像刻畫存在明顯局限。”張亮解釋，高維的信息是無法被低維采集和理解的，除非將高維信息投射到低維——比如三維的球投在二維平面上，就成了一個圓。但這個過程會損失很多信息。要想直接看見肌肉層、血管細節(jié)或血流結(jié)構(gòu)等，目前單一數(shù)據(jù)采集的精度還遠遠不夠。

在紛亂復雜的碎片中，AI可以綜合多個維度的信息，在理論上成立、現(xiàn)實中無法模擬的理想環(huán)境中，進行推理分析，并得出規(guī)律。

上海人工智能實驗室雙聘青年科學家孫思琦認為，這一能力，讓AI在“模式識別”（如看懂病理切片）、“高維搜索”（如在海量化合物中篩選藥物苗頭）和 “生成預測”（如預測RNA三級結(jié)構(gòu)）上已經(jīng)展現(xiàn)出超越人類的效率，極大縮短試錯周期。

2025年，張亮團隊以靶點發(fā)現(xiàn)和核酸分子設(shè)計算法為核心，把AI設(shè)計直接導入真實藥物研發(fā)與臨床轉(zhuǎn)化，將傳統(tǒng)方法需要數(shù)月的分子設(shè)計周期，降低到以周為單位。

AI助力腫瘤藥物開發(fā)原理圖。受訪者供圖

在腫瘤藥物研發(fā)中，找到合適靶點是關(guān)鍵步驟。這個過程，首先要快速；其次要精準。

“如果沒有AI的幫助，幾乎不可能做成這件事。”張亮說。在這項研究中，AI發(fā)揮了極關(guān)鍵的作用——精準地在患者的腫瘤組織中預測出“重要的突變”，并據(jù)此預測新抗原。

突變，把模糊的疾病癥狀定格成具體的“鎖”，而藥物研發(fā)就是為這把“鎖”配出合適的“鑰匙”。

什么叫“重要的突變”？張亮說，腫瘤組織中有大量突變，但只有少部分既能被免疫系統(tǒng)識別，又具備成藥潛力。“重要的突變”，意味著它可以被當作潛在治療靶點或新抗原來源，進而導向新藥的研發(fā)。“比如甲類型的突變，只有幾位患者體內(nèi)有，那么據(jù)此制成的新藥只對這幾個人有效。而乙類型的突變是通用的，據(jù)此制成的新藥可以給患有某一種疾病的患者使用。我們的目標就是找到后者。”

傳統(tǒng)流程中，從患者數(shù)據(jù)中人為篩選出合適靶點，需要耗費巨量時間精力。且不同組織、個體間差異極大，這其中包含成萬上億種可能。

浙江大學醫(yī)學院附屬第一醫(yī)院余杭院區(qū)副院長及病理科主任章京教授為我們解釋了這個繁復過程：“大約需要十幾到二十名研究人員連續(xù)工作一個月，才能系統(tǒng)梳理一個小分子的可能路徑，且最終選出的靶點未必可用。”而有了AI的幫助，原本將近十年的研發(fā)過程，已經(jīng)被縮短至一至兩年。

“它就像現(xiàn)在的地圖軟件，輸入目的地和出發(fā)點，AI就能自動計算出幾條最優(yōu)路徑。”張亮說。

“模仿游戲”的未來式

“你想來場游戲嗎？判斷對方到底是機器還是真正的人？”

1950年，“人工智能之父”圖靈提出了“模仿游戲”，即著名的“圖靈測試”。一直到現(xiàn)在，它都是評估AI智能程度的經(jīng)典方法。

70多年過去，隨著AI不斷迫近甚至超越人類智力，圖靈的預言似乎已經(jīng)實現(xiàn)，這讓那個不可避免的問題再次出現(xiàn)——

人，還能做什么？

“AI的性能強弱，很大程度上取決于‘喂’給模型的數(shù)據(jù)質(zhì)量高低。而判別并挑選出高質(zhì)量數(shù)據(jù)，目前只有人能做到。”采訪中，多位專家表達了這一相同觀點。

數(shù)據(jù)、算力和算法，是決定AI能力的基礎(chǔ)因素。最新數(shù)據(jù)顯示，我國智能算力規(guī)模已超過1590EFLOPS（每秒百億億次運算），位居全球前列。而目前多數(shù)算法均為開源（可公開訪問），只有高質(zhì)量的數(shù)據(jù)仍然稀缺。

“高質(zhì)量的數(shù)據(jù)，對于目前AI性能的影響極為關(guān)鍵。”在訓練“女媧CE”的過程中，郭國驥團隊自主研發(fā)出單細胞百萬級測序技術(shù)UUATAC-seq。“數(shù)據(jù)質(zhì)量提升后，困擾我們很久的瓶頸驟然松動。”

郭國驥說，相比傳統(tǒng)細胞系中雜亂的分子信息，單細胞水平的數(shù)據(jù)，分子信息更多、不容易丟失，且不帶人為偏見，非常適合AI理解學習。

多模態(tài)數(shù)據(jù)的對齊、高質(zhì)量數(shù)據(jù)的開放共享，已經(jīng)成為未來的發(fā)展方向。

多模態(tài)，意味著數(shù)據(jù)充分、完整、準確、真實、覆蓋多個維度。目前，不同實驗室、不同醫(yī)院、不同研究目標下產(chǎn)生的數(shù)據(jù)，往往缺乏統(tǒng)一標準。即便在臨床場景中，數(shù)據(jù)的記錄方式、完整程度也存在巨大差異。這意味著，在數(shù)據(jù)轉(zhuǎn)化為AI的“燃料”之前，仍需要大量科研人員進行處理。

“從海量數(shù)據(jù)中篩選高質(zhì)量數(shù)據(jù)、將數(shù)據(jù)轉(zhuǎn)換成AI能理解的語言、在訓練中不斷調(diào)整模型架構(gòu)、再進行不斷評測與優(yōu)化，這個過程中的每一步都仍然需要人力牽引。”劉石平說。

某種程度上，當前的AI并非“自動駕駛”，而更像是需要人類不斷喂養(yǎng)優(yōu)質(zhì)養(yǎng)料的超級外腦。

也許，AI在許多已知的問題上已經(jīng)超越人類能力，但在基礎(chǔ)科研領(lǐng)域那些完全未知的地圖上，AI仍不擅長完成“從0到1”的過程。

“AI本質(zhì)上是基于數(shù)據(jù)的概率模型。”孫思琦說，它擅長解答“How”（如何優(yōu)化路徑），但往往無法獨立提出“Why”（科學機制的解釋），因此，科學家的直覺和洞察力是不可替代的。

在上海人工智能實驗室主任、首席科學家周伯文看來，在全新復雜的科研問題中，AI的預測能力將會遭遇瓶頸，比如AlphaFold能預測蛋白質(zhì)結(jié)構(gòu)，但尚不能通過分析模型本身來揭示蛋白質(zhì)折疊的原理。

“AI可以在既有數(shù)據(jù)框架內(nèi)判別哪種模式更優(yōu)，但如果讓AI確定一種新方法好不好、可不可行，這還遠遠不夠。”章京認為，跨界聯(lián)想與創(chuàng)造性假設(shè)——這種“跳出數(shù)據(jù)”的能力，仍然高度依賴人類思維。

而在醫(yī)學領(lǐng)域，人類的決策能力更顯現(xiàn)出不可取代的特性。

“當前的AI模型，的確能做到無限趨近高準確率，但醫(yī)學不容許‘接近正確’，只要這個數(shù)字不是100%，我們就必須慎重，因為承擔風險的是患者。”章京說。

目前，大部分AI模型仍屬于弱人工智能（Narrow AI），在特定的任務(wù)和領(lǐng)域中表現(xiàn)出色，但缺乏跨場景泛化能力，無法自主思考、決策或創(chuàng)新。當前AI界流行的“世界模型”（World Models）、“強人工智能”（General AI）、“通用人工智能”（AGI）等概念，其實都在朝著同一個目標努力——讓AI能像人類一樣理解世界。

圖靈的回旋鏢，在70多年后又飛回我們面前。

【記者手記】

我們始終掌握“駛向何方”

陳寧

在中國科學院杭州醫(yī)學研究所采訪張亮的時候，他很形象地用“車載導航”形容AI之于基礎(chǔ)研究的意義。兩個地點之間也許有30種路線，“但AI能告訴你‘最優(yōu)路徑’”。

我們順勢發(fā)問：“但不管哪種路徑，司機得是人，對吧？”他完全同意我們的比喻。

從策劃AI助力生命健康領(lǐng)域基礎(chǔ)研究的選題，到著手采訪、寫作，我們不斷“提醒”自己：在呼嘯而來的人工智能浪潮中，尤其在嚴肅的科學研究領(lǐng)域，人始終是主導。

但與科研人員對話時，我們發(fā)現(xiàn)，這種“提醒”顯得有些多余。當他們在實驗室里，與這些瞬息萬變、看似無所不能的算法打著交道時，自始至終能清醒地認識到AI目前尚存的短板：無法獨立決策、創(chuàng)新思維有限、精準度達不到100%……

回顧現(xiàn)代科學的發(fā)展歷程，我們一次次感嘆人與技術(shù)的“牽手”給世界帶來無限驚喜，但人與技術(shù)的辯證關(guān)系也幾乎貫穿始終——一個多世紀來，汽車從問世到普及，從“蹣跚起步”到日行千里，即便現(xiàn)在新型電車不斷顛覆人們的認知，但我們清醒地知道，速度的上限、駕駛體驗的邊界，始終掌握在人的手上；20世紀初期，抗生素的問世令人驚呼現(xiàn)代醫(yī)學的偉大，但也正是科學家們及時發(fā)現(xiàn)了它的“耐藥性”危機，醫(yī)學才朝著更有利于人類健康的方向穩(wěn)步前行；今天，各行各業(yè)都深度依賴計算機和網(wǎng)絡(luò)技術(shù)的突飛猛進，我們深知，只有人能守住信息安全，防住網(wǎng)絡(luò)暴力的“漩渦”。

用辯證的眼光看待技術(shù)，是源于科學研究“用之于人”的天然屬性。在加快打造人工智能創(chuàng)新發(fā)展高地的進程中，掌握了方向，我們便能坦然擁抱“AI+”：只有對人工智能的短板、可能產(chǎn)生的風險有足夠了解，才能滋養(yǎng)一方足夠包容的創(chuàng)新土壤；也只有清醒認識到人的主導作用，才有足夠的底氣打開更為廣闊的創(chuàng)新空間。

“轉(zhuǎn)載請注明出處”

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.