![]()
僅從蛋白質(zhì)序列生成新型化合物的ProtoBind - Diff——衰老生物學早期發(fā)現(xiàn)的潛在加速劑。
用于藥物發(fā)現(xiàn)的人工智能模型正變得更強大、更靈活,并且在某些情況下,在生物學方面更具通用性。這個不斷發(fā)展的領域中較新的成果之一來自新加坡的生物技術公司Gero,該公司已經(jīng)發(fā)布了ProtoBind - Diff:一種完全不依賴蛋白質(zhì)結(jié)構數(shù)據(jù)的小分子發(fā)現(xiàn)生成模型。
大多數(shù)用于基于靶點的藥物設計的人工智能平臺在很大程度上依賴于3D結(jié)構或?qū)幽M,而ProtoBind - Diff僅基于蛋白質(zhì)序列和配體信息進行訓練。它從超過一百萬個有活性的蛋白質(zhì) - 配體對中學習,利用預訓練的嵌入(embeddings)僅從一級序列推斷出有化學意義的相互作用。根據(jù)該模型的預印本的作者所述,這使得能夠在整個蛋白質(zhì)組中生成配體——包括“結(jié)構數(shù)據(jù)不可用或不可靠的孤兒靶點(指那些研究較少、缺乏相關信息的靶點)、柔性或快速出現(xiàn)的靶點”。
對于老年科學(geroscience)——一個常常受限于靶點可操作性有限的領域——其影響值得關注;通過實現(xiàn)針對已知序列、未知結(jié)構靶點的分子設計,ProtoBind - Diff可能為進入衰老的生物學灰色地帶提供更有效的途徑。
《長壽科技》:圍繞藥物發(fā)現(xiàn)中的人工智能的諸多熱鬧景象往往集中在優(yōu)化上——更快的對接、更好的評分、更順暢的流程體系。相比之下,ProtoBind - Diff直接瞄準上游瓶頸:開啟蛋白質(zhì)組的大量暗物質(zhì)以進行治療性探究的能力。通過僅基于蛋白質(zhì)序列而非結(jié)構數(shù)據(jù)來調(diào)節(jié)分子生成,它提供了一種針對無序、孤立或者僅僅是結(jié)構解析難度太大的靶點的研究方法。對于衰老生物學——一個常被指責為靶點少而假設多的領域——這不僅僅是又一個模型基準;這是節(jié)奏的改變。我們對一個靶點了解越少,現(xiàn)在它就變得越有趣。
此次發(fā)布特別值得關注的不僅僅是模型的設計,還有其意圖。Gero計劃發(fā)布ProtoBind - Diff的權重和接口以供他人探索——在一個往往由專有平臺和閉環(huán)主導的領域,這是一個令人耳目一新的毫無防備的舉動。如果該模型表現(xiàn)如宣傳的那樣,它可能會加速老年科學迫切需要的早期假設檢驗階段的發(fā)現(xiàn)——即使在缺乏結(jié)構確定性的情況下也能快速生成探針。這可能不會使結(jié)構變得過時,但它確實促使思維方式的轉(zhuǎn)變:從等待清晰到在模糊中行動。對于一個涉及復雜性、異質(zhì)性和進展緩慢的終點的領域來說,這可能正是它所需要的推動。
輸入序列,產(chǎn)出小分子
ProtoBind - Diff的核心是一個掩蔽擴散模型,該模型生成SMILES(一種基于文本的化合物表示形式)字符串,其條件是從預訓練的ESM - 2語言模型導出的蛋白質(zhì)序列嵌入。與通常需要確定結(jié)合口袋或?qū)游蛔说幕诮Y(jié)構的方法不同,ProtoBind - Diff學習將序列環(huán)境與具有化學意義的配體特征相關聯(lián)。
Gero公司的首席執(zhí)行官兼聯(lián)合創(chuàng)始人彼得·費迪切夫(Peter Fedichev)表示:“設計能作用于蛋白質(zhì)靶點的小分子是藥物研發(fā)中最困難的問題之一。經(jīng)典建模面臨困境,因為能量尺度、極化效應和蛋白質(zhì)動力學的復雜性使得高分辨率預測幾乎不可能。但也許我們一直都在問錯誤的問題。”
他接著說:“大自然早就得解決這個難題了——進化優(yōu)化了一種對蛋白質(zhì)和分子如何相互作用進行編碼的生化語言。通過ProtoBind - Diff,我們正在利用這一點。這是一個從序列而非結(jié)構中學習的語言模型。它不模擬物理現(xiàn)象,而是從一百萬個真實實例中學習生物活性的規(guī)則。”
Gero公司首席執(zhí)行官兼聯(lián)合創(chuàng)始人彼得·費迪切夫
該模型借助預訓練的蛋白質(zhì)嵌入(ESM - 2)和一個去噪擴散框架,僅在序列級信息的引導下生成SMILES格式的化學上有效且新穎的分子。作者寫道:“ProtoBind - Diff在不需要結(jié)構監(jiān)督的情況下生成化學上有效、新穎且針對特定靶點的配體”[1]。雖然在訓練期間從未見過3D數(shù)據(jù),但該模型的注意力圖與已知的結(jié)合殘基相匹配,這表明它僅從序列中學習到“具有空間意義的相互作用先驗”[1]。
衰老相關靶點已現(xiàn)端倪
盡管ProtoBind - Diff被視作一種通用的小分子發(fā)現(xiàn)引擎,但費迪切夫(Fedichev)告訴《長壽技術》(Longevity.Technology),杰羅(Gero)團隊正在積極將其應用于衰老相關生物學領域。他解釋說:“ProtoBind - Diff確實是一種通用的小分子發(fā)現(xiàn)引擎,旨在識別缺乏結(jié)構數(shù)據(jù)的衰老相關靶點的配體(能與受體結(jié)合的分子)。”
目前的工作包括為參與炎癥、新陳代謝和表觀遺傳調(diào)控的蛋白質(zhì)生成候選分子(的工作)——這些領域是幾個衰老的特征標志的核心。他說:“在我們的測試基準中,我們納入了FTO(脂肪量和肥胖相關蛋白)——一種RNA去甲基化酶,抑制它可能有助于對抗與衰老相關的代謝功能障礙和慢性低度炎癥。其他例子包括表觀遺傳擦除蛋白和讀取蛋白,如KDM1A和SPIN1,目前正在探索其抑制劑在癌癥、炎癥和纖維化中的應用——這些都與衰老生物學相關。”
他補充說:“衰老仍然是一個缺乏目標靶點的領域,在研究成果轉(zhuǎn)化開始之前很久,研究人員就需要快速生成分子探針的方法來測試生物學假設——通常是在缺乏高質(zhì)量結(jié)構數(shù)據(jù)的情況下。這就是ProtoBind - Diff或其未來改進版本可能發(fā)揮變革性作用的地方。”
在基準測試中,ProtoBind - Diff比得上或者超過基于結(jié)構的模型(如Pocket2Mol和TargetDiff)在一系列“容易”和“困難”的靶點上的表現(xiàn)。在幾個結(jié)構數(shù)據(jù)缺乏的蛋白質(zhì)上,該模型使用Boltz - 1展示出比基于晶體學數(shù)據(jù)訓練的模型更高的富集分數(shù)。
壽命效應也被提上議程,但時間是限制因素。費迪切夫(Fedichev)告訴我們:“壽命研究正在進行中,因為它們需要大量時間和驗證工作。”
捷羅(Gero)公司的高級研究員、該項目的首席科學家康斯坦丁·阿夫恰喬夫(Konstantin Avchaciov)說:“我認為,我們在創(chuàng)建理想生成模型的道路上才剛剛開始。是的,在我們的基準測試中,ProtoBind - Diff模型優(yōu)于一些現(xiàn)有的3D結(jié)構模型。盡管如此,我相信隨著我們繼續(xù)擴展數(shù)據(jù)集以涵蓋更多不同種類的蛋白質(zhì),我們將來會取得明顯更好的成果。”
接下來可能不需要結(jié)構
捷羅公司已將ProtoBind - Diff整合到其內(nèi)部的藥物研發(fā)流程中,并正在探索在腫瘤學、免疫學、傳染病學和老年治療學方面的合作。一個公開的GitHub資源庫已經(jīng)推出,并承諾很快會更廣泛地開放整個模型的訪問權限。
ProtoBind - Diff是否會成為一個主要工具或者一代的墊腳石將取決于其在實際應用中的表現(xiàn)——但就目前而言,它似乎提供了衰老生物學長期以來所需要的東西:一種從序列到假設的更快途徑,即使沒有結(jié)構參與其中。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.