2026 年清華大學第一篇 Science 論文花落清華大學智能科學講席教授、智能產業研究院(AIR)院長張亞勤院士團隊,該學院的蘭艷艷教授團隊和合作者研發出一款名為 DrugCLIP 的 AI 工具,能以前所未有的速度和準確率,為成千上萬個人類蛋白質找到潛在的藥物鑰匙。
它只需使用 8 張頂級顯卡,就能在不到 24 小時內完成超過 10 萬億次蛋白質與分子的匹配計算,為將近一半的人類基因組找到了超過 200 萬個潛在的候選藥物分子。
這一研究首次完成了覆蓋人類基因組規模的藥物虛擬篩選,首次打通了從蛋白結構預測到藥物發現的關鍵通道,可覆蓋約 1 萬個蛋白靶點、2 萬個蛋白口袋,分析篩選了超過 5 億個類藥小分子,借此構建了已知最大規模的蛋白-配體篩選數據庫,目前該數據庫已免費面向全球科研社區開放 [1]。
![]()
圖 | 蘭艷艷(來源:https://air.tsinghua.edu.cn/info/1046/120
論文共同一作清華大學智能產業研究院(AIR)博士后賈寅君告訴DeepTech:“一方面,我們聚焦于藥物研發最早期的苗頭化合物發現階段,把蛋白質結構預測的AI成功進一步推進到化合物層面,使研究能與化學家直接對話;另一方面,我們致力于以組學視角系統性探索藥物靶點,突破傳統單一靶點研發模式的局限,旨在通過對人類蛋白質組的全面篩選,為未來攻克更多疾病提供新起點。盡管目前距離實際藥物應用仍有 ADME 優化、臨床驗證等諸多挑戰,但本研究為AI驅動的大規模靶點探索奠定了基礎。”
![]()
圖 | 賈寅君(來源:賈寅君)
將以文搜圖原理用于 AI 尋藥
研究中,他們并不是讓 AI 去模擬分子擠進蛋白質口袋的復雜物理過程,而是借鑒了人們在日常生活中常用的以文字搜索圖片的技術。當我們使用搜索引擎以文字搜索圖片,尋找一張符合描述的照片時,背后的技術并不是比較像素,而是比較圖片被轉換成的一組數字特征也就是向量。對于語義相似的文字和圖片來說,它們的特征向量在數學空間里的位置會非常接近。
![]()
(來源:https://www.science.org/doi/10.1126/science.ads9530)
DrugCLIP 也是這么做的,研究人員訓練了兩個神經網絡:
第一個神經網絡起著分子編碼器的作用,可以把任何一個小分子化合物,轉換成為一組代表其特征的數字向量;
第二個神經網絡起著口袋編碼器的功能,可以把蛋白質上那個可以結合藥物的凹陷區域也就是結合口袋,也轉換成為一組數字向量。
訓練的目標很簡單:讓能夠結合的蛋白質口袋和分子的向量變得非常相似,也就是在數字空間里靠得很近;讓不能結合的向量差異變得很大也就是離得很遠。
這樣,當面對一個新的蛋白質的時候,DrugCLIP 只需要做這樣一個步驟:把這個蛋白質口袋也變成一個向量,然后去已經預存好的分子向量庫里,快速地計算余弦相似度,找出和它最像、也就是最可能結合的那些分子。這個過程非常快,因為本質上就是大量的向量點乘運算,非常適合使用 GPU 進行并行加速。
為了讓 AI 在沒有足夠真實數據的情況下也能學好,他們想出了這樣一個方法:使用蛋白質自己假裝藥物來訓練。他們從已知的蛋白質結構數據庫中,截取一小段氨基酸鏈比如 3-8 個氨基酸,把它當做偽配體,而它周圍的區域則被當做偽口袋。
蛋白質內部氨基酸之間的相互作用,與蛋白質和藥物分子之間的相互作用原理是相同的。通過使用這種方法,他們生成了 550 萬個偽復合物數據來對 AI 進行預訓練,從而讓它掌握了識別結合模式的基本功。
![]()
(來源:https://www.science.org/doi/10.1126/science.ads9530)
認圖不認人,無中生有找新藥
經過訓練之后,DrugCLIP 展現出又快又準的特點,在兩個權威的虛擬篩選測試集 DUD-E 和 LIT-PCBA 上,它的準確率超過了包括傳統分子對接和許多其他深度學習模型在內的所有基線方法。在速度上,它更是達到傳統分子對接方法的上千萬倍。在篩選 LIT-PCBA 數據集上的所有分子時,DrugCLIP 的順序計算只需要 38 秒,而傳統方法需要幾天甚至更久。
DrugCLIP 還展現出認圖不認人的特點,它無需依賴精確的蛋白質三維結構細節,針對蛋白質側鏈的微小錯誤不具備敏感性。更重要的是,即使訓練數據里完全沒有某個蛋白質家族的信息,它也能很好地為這個新家族的成員找到潛在配體,具備較強的泛化能力。
DrugCLIP 亦能無中生有尋找新藥。在濕實驗驗證中,針對抑郁癥靶點 5-羥色胺 2A 受體,它從 78 個候選分子中找到了 8 個有活性的激動劑,其中最好的分子活性達到了納摩爾級別。
針對另一個抑郁癥靶點去甲腎上腺素轉運體,它找到了比常用藥物安非他酮效果更好的新型抑制劑。研究人員甚至使用冷凍電鏡拍下了這些新抑制劑與靶點蛋白緊密結合的清晰照片,證實了 AI 預測的結合模式。
![]()
(來源:https://www.science.org/doi/10.1126/science.ads9530)
TRIP12,是一個與癌癥和神經退行性疾病相關的蛋白質,此前既沒有它與小分子結合的實驗結構,也幾乎沒有已知的抑制劑報道。為此,研究人員只能使用谷歌 DeepMind 旗下的 AlphaFold2 所預測的蛋白質結構。
然而,即使是在這樣的 hard 模式下,DrugCLIP 結合該團隊研發的另一款用于優化預測結構中的口袋定義的工具 GenPack,竟然取得了 17.5% 的命中率,找到了能夠有效結合并抑制 TRIP12 活性的苗頭化合物,證明了 DrugCLIP 在探索完全未知的靶點上的巨大潛力。
![]()
(來源:https://www.science.org/doi/10.1126/science.ads9530)
構建公共數據庫,助推打造藥物發現新模式
這項研究的終極結果,是構建了一個名為 GenomeScreenDB 的公共數據庫。研究人員利用 AlphaFold2 預測的整個人類蛋白質組結構,結合 DrugCLIP 針對 5 億多個類藥分子進行了全景式掃描,最終為來自大約 1 萬個人類蛋白質的 2 萬個結合口袋,找到了 200 萬個潛在的候選分子。
這個數據庫所覆蓋的蛋白質靶點數量,是當前最全面的生物活性分子數據庫 ChEMBL 的兩倍之多,涵蓋了將近一半的人類基因組。從經典的激酶靶點、到鮮有研究的溶質載體蛋白、甚至嗅覺受體,在該數據庫中都有預測的結合分子。目前,這些數據已在網站和在線服務平臺(https://drugclip.com)面向全球科學家免費開放。
![]()
(來源:https://drugclip.com)
自此以后,任何一位研究人員即使沒有太強的計算資源,也可以輕松查詢到自己感興趣的靶點,快速獲得一些經過 AI 預篩選的候選化合物,并以此作為藥物研發的起點。這極大地降低了早期藥物發現的壁壘,尤其有助于針對那些冷門但是重要的疾病靶點開展研究。
![]()
(來源:https://www.science.org/doi/10.1126/science.ads9530)
清華大學智能產業研究院(AIR)博士后賈寅君、計算機系博士生高博文、生命學院博士后譚佳鑫、化學系博士后鄭濟青以及智能產業研究院(AIR)博士后洪鑫是本次論文的共同一作;通訊作者為智能產業研究院(AIR)蘭艷艷教授,清華大學生命學院張偉副教授、閆創業副教授以及清華大學化學系劉磊教授。
在后續計劃上,賈寅君表示將主要圍繞兩大方向:一是提升優化AI發現的分子的安全性及成藥性,使其更接近實際制藥應用;二是進一步提高AI模型準確性與分子效力,增強初篩分子的生物學活性。這兩方面均是未來真正實現AI終結一切人類疾病需要攻克的關鍵問題。
參考資料:
相關論文:https://www.science.org/doi/10.1126/science.ads9530
蘭艷艷官方主頁:https://yanyanlan.com/
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.