![]()
這項由加州理工學院、Mila魁北克人工智能研究所及蒙特利爾大學等多家機構聯合開展的研究,于2026年4月6日以預印本形式發布在arXiv平臺,論文編號為arXiv:2604.05181。感興趣的讀者可通過該編號查閱完整論文。
地球上存在著數以億計的蛋白質分子,它們是生命運轉的幕后工程師。其中一類特殊的蛋白質叫做"酶",你可以把它們理解為細胞內的精密機器,專門負責加速各種化學反應——消化食物、合成藥物、修復DNA,這些都離不開酶的參與。幾十億年的進化為我們留下了數量龐大、功能各異的天然酶庫,科學家們也學會了通過改造這些天然酶來完成更多任務。
但有一個根本性的瓶頸始終存在:每一輪酶工程改造,都需要一個"起點"——你至少得先找到一個對目標化學反應有一丁點兒活性的天然蛋白質,然后才能在此基礎上反復優化。對于那些自然界完全沒有觸碰過的化學反應,這個起點根本不存在。這就好比你想學一門全新的語言,卻發現世界上沒有任何教材、字典或會說這門話的人——從零開始談何容易。
這項研究的核心貢獻,正是提供了一把從零開始的鑰匙。研究團隊開發了一個名為DISCO的深度學習模型,它能夠在沒有任何模板或已知催化殘基信息的前提下,直接為任意化學反應從頭設計出全新的蛋白質序列與三維結構。更令人振奮的是,這些設計出來的蛋白質不僅僅停留在計算機的屏幕上——它們被實際合成并測試,證明能夠催化多種自然界中從未存在過的化學反應,且活性甚至超越了科學家經過多年人工進化才培育出的版本。
一、為什么設計一個新酶如此困難
要理解這項研究的價值,先得搞清楚傳統方法卡在哪里。
設計一個功能性蛋白質,本質上是在解一道極其復雜的三維拼圖。蛋白質由數十到數百個氨基酸組成,這些氨基酸就像不同形狀的積木塊,串聯在一起之后會自動折疊成特定的三維形狀。正是這個三維形狀——尤其是蛋白質"活性口袋"里幾個關鍵氨基酸的精確排列——決定了這個蛋白質能催化什么反應,不能催化什么反應。
以往的計算設計方法,通常采用一種"先搭骨架、再填序列"的兩步走策略。第一步,用擴散模型(一種能生成新結構的深度學習方法)設計出蛋白質的三維骨架;第二步,用另一個被稱為"逆折疊"的工具,根據這個骨架推算出相配的氨基酸序列。這兩步是分開進行的,就像先畫好房子的建筑圖紙,再決定用什么材料建造。
這種分離式策略存在兩個本質缺陷。其一,既然序列設計發生在骨架已經固定之后,那么在骨架形成的關鍵階段,模型就無法利用"這個序列好不好"的信息來引導骨架生成,兩者無法相互促進。其二,也是更致命的一點,對于真正全新的化學反應,科學家往往根本不知道活性口袋里需要哪些關鍵氨基酸、它們應該擺放在什么幾何位置,所以根本無法給骨架生成提供任何化學層面的指導——這種被稱為"theozyme"(理論酶)的先驗設計,對于機制未明的新反應來說是不可能完成的任務。
DISCO的出現,從根本上繞開了這兩個障礙。
二、DISCO是如何工作的——序列與結構的同步舞蹈
DISCO這個名字是"用于序列結構協同設計的擴散模型"的英文縮寫(DIffusion for Sequence-structure CO-design)。理解它的工作原理,可以把它與傳統的兩步走方法做一個對比。
傳統方法像是先雕刻好一個石膏模具,再往里倒入液體材料成型——兩個步驟涇渭分明,互不干擾。DISCO則更像是一位雕塑家同時用雙手塑造一件作品:左手在捏形狀,右手在選材質,兩只手時刻感知對方的動作并做出調整,最終兩者和諧統一。
具體來說,DISCO使用兩種不同的"噪聲-去噪"過程來同時處理蛋白質的兩種屬性。對于三維坐標(結構),它使用連續擴散過程:從一團隨機散布在空間中的原子坐標開始,逐步去除噪聲,使原子歸位。對于氨基酸序列,它使用離散遮蔽擴散過程:從一串全部被遮蓋的氨基酸位置開始,逐步揭開每個位置應該填入哪種氨基酸。這兩個過程并行運行,在一個統一的神經網絡中共同演化。
支撐這一切的理論基礎來自一個巧妙的數學證明:只要在訓練時對兩種模態獨立施加噪聲,那么最終學到的模型就能等價地學習到兩者聯合分布的逆過程。換句話說,不需要專門設計任何特殊的多模態損失函數,用最自然的方式分別訓練兩種損失,就能得到一個真正的聯合生成模型。
DISCO的骨干架構大量借鑒了AlphaFold 3的設計,包括其原子級別的注意力機制和Pairformer模塊,但做了若干針對性改動。最重要的是,去掉了需要多序列比對(MSA)的模塊——因為在生成過程中,蛋白質序列本身就在不斷變化,根本無法實時計算MSA——轉而引入了一個凍結的蛋白質語言模型DPLM來提供進化信息。整個模型擁有8.88億個參數,其中2.35億個參數參與訓練,在32塊L40S GPU上訓練了11天共16萬步。訓練數據來自蛋白質數據庫(PDB),截止日期為2021年9月。
三、讓序列和結構真正"聽懂對方說的話"——跨模態循環機制
DISCO能夠實現高質量協同設計的一個關鍵秘訣,是它獨特的"跨模態循環"(cross-modal recycling)機制。
普通的擴散模型在每個去噪步驟里,只會拿到當前時刻的噪聲狀態來做預測。DISCO則更進一步:在每個生成步驟中,它不僅會使用當前時刻帶噪的序列和結構,還會同時使用模型對"最終干凈狀態"的當前最佳猜測——即它目前認為最終序列和最終結構應該是什么樣子的預測值。
這四份信息(當前噪聲序列、當前噪聲結構、預測的干凈序列、預測的干凈結構)都會被編碼并融入到每一步的生成過程中,讓模型在塑造結構時能參考序列信息,在優化序列時能參考結構信息,形成一種雙向實時反饋的循環。從干凈結構預測中提取的距離圖還會被直接注入到對表示之中,為空間關系提供持續的幾何約束。
在推斷策略上,DISCO還解決了一個讓研究團隊頗為頭疼的問題:標準的遮蔽擴散推斷有一個硬性限制——一旦某個位置的氨基酸被揭開,就再也不能更改,即使這個選擇事后證明是錯的。這就像你在填寫一份不能涂改的答卷,一旦落筆就無法糾錯,這對于需要全局協調的蛋白質設計來說是致命的。
研究團隊引入了"路徑規劃"(path planning)方法來解決這個問題:在每個序列生成步驟中,不僅允許揭開新的位置,還允許重新遮蓋一部分已經揭開的位置,讓模型有機會修正之前的錯誤判斷。與此同時,他們還設計了一種"熵自適應溫度"機制:在生成早期,對那些過于自信的氨基酸預測施加一定的隨機擾動,防止模型過早鎖定錯誤的局部最優解,從而顯著提升最終的協同可設計性。
這些推斷技巧的重要性不可小覷:使用相同的模型權重,僅靠改變推斷策略,協同可設計性指標就能從16%飆升到88%。
四、任意分子都能作為設計條件——STUDIO-179基準測試
DISCO的另一個核心能力是以任意生物分子作為條件來設計蛋白質。無論是小分子藥物、金屬輔因子、核酸序列還是反應中間體,只要能提供原子坐標和鍵合信息,DISCO就能圍繞它設計出配套的蛋白質。
為了系統評估這種能力,研究團隊創建了一個全新的基準數據集,命名為STUDIO-179。這個數據集涵蓋179種天然和非天然配體,橫跨催化、制藥、發光和傳感等多個應用領域,包括極端剛性分子(如污染物四氯二苯并二噁英)、大型柔性分子(如輔酶Q10)以及金屬/金屬簇(如四鐵四硫簇[4Fe-4S]),可謂對條件生成能力的全方位壓力測試。
評價標準是"協同可設計性",定義為:用蛋白質折疊軟件Chai-1重新折疊生成的序列后,折疊結果中蛋白質骨架與設計骨架的RMSD(均方根偏差)小于2埃,且所有配體質心位置的RMSD也小于2埃——也就是說,不僅蛋白質本身要折疊正確,配體也要停留在設計好的位置。
在179個配體中,DISCO在178個上都取得了最高比例的多樣化且協同可設計的復合物,這一表現遠超所有基準方法,包括RFDiffusion3、BoltzGen和RFDiffusion All-Atom。
更能說明問題的是一些定性觀察。DISCO設計的活性口袋在化學上是"有意識的":口袋的疏水性與配體的親脂性(logP值)之間存在顯著的正相關(R?=0.51),這意味著模型確實學會了為疏水配體設計疏水口袋,為親水配體設計親水口袋,而不是隨機堆砌殘基。對于特定輔因子,合適的配位殘基會自然涌現——比如為銅離子配位中心自動生成兩個組氨酸、兩個半胱氨酸和一個谷氨酸的四面體配位結構。DISCO還能在保持剛性幾何的同時,探索配體的構象自由度,生成在訓練集中罕見甚至從未出現過的配體構象。
通過Folddisco工具在AlphaFoldDB中搜索,研究團隊發現DISCO生成的活性口袋中,超過80%(以最近5個殘基為單位)在已知蛋白質結構中找不到相近的同源物(定義為無匹配或RMSD超過3埃),且生成口袋間的聚類多樣性超過90%——這些都是設計真正新穎性的有力證明。
五、推斷時的"方向盤"——費曼-卡茨校正器
DISCO還提供了一套精巧的推斷時引導機制,被稱為"費曼-卡茨校正器"(Feynman-Kac Corrector,簡稱FKC)。
傳統的"生成再篩選"策略(先大量生成候選,再篩選出滿足要求的)效率低下,當目標特性非常稀有時更是近乎無效。費曼-卡茨校正器的思路是:與其被動篩選,不如主動引導——在每一步生成過程中就施加一個軟約束,把采樣分布向期望的目標推動。
研究團隊推導了兩種具體的FKC方法。第一種叫FKC-多模態(FKC-MM),允許同時對序列和結構施加聯合獎勵函數。以增加二硫鍵數量為例:二硫鍵需要兩個半胱氨酸殘基(序列信息)且這兩個殘基的Cβ原子必須相互靠近約3.8埃(結構信息),這種序列-結構聯合約束正是單模態方法無法處理的。實驗結果顯示,FKC-MM生成的前2%設計中,100個氨基酸長度的蛋白質含有六個二硫鍵,而訓練數據中僅有前0.2%的同等長度蛋白質達到這一密度——模型不僅學會了約束,還能在此約束下超越訓練分布。
第二種叫FKC-特異性引導(FKC-SG),目標是設計只結合目標分子而回避結構相似"誘餌"分子的蛋白質。這通過在采樣時同時運行兩個模型——一個以目標分子為條件,一個以誘餌分子為條件——并讓目標模型的分數占主導、誘餌模型的分數起排斥作用來實現。即使面對結構極為相近的分子對(如醛固酮與可的松,兩者互為構造異構體的甾體),FKC-SG也能生成對目標和誘餌的配體質心RMSD超過6埃的蛋白質,而簡單的最優N篩選方法在某些情況下甚至無法產生任何通過篩選的候選。
六、真正的考驗:從零設計出能催化新反應的酶
所有這些技術成就的終極考場,是一個實驗室里的真實挑戰:能否用DISCO設計出真正能催化化學反應的酶?
研究團隊選擇了"卡賓轉移反應"作為測試靶標。卡賓是一種碳原子只有兩個成鍵的高活性化學物種,自然界中沒有任何已知酶能催化這類反應。過去十幾年,弗朗西絲·阿諾德(Frances Arnold)團隊通過對細胞色素P450、細胞色素c和球蛋白等天然蛋白質進行大量定向進化,成功培育出能催化多種卡賓反應的人工酶,但每次都需要從一個具有初始活性的天然蛋白質出發,經歷漫長的進化歷程。從頭設計卡賓轉移酶,在此之前從未有人成功。
關鍵的設計決策是:不使用完整的過渡態結構,而僅以"鐵卡賓前體復合物"——反應關鍵中間體——的DFT(密度泛函理論)計算幾何結構和鍵合模式作為DISCO的條件輸入。這體現了一種蓄意的簡化:與其試圖精確固定一個在真空中計算的過渡態,不如讓DISCO的協同折疊機制自由探索與之兼容的構象空間。這一決策使得設計可以完全繞開"theozyme"的構建——而對于催化機制不明的反應,theozyme根本無法構建。
從約一萬個DISCO生成的序列-結構對出發,經過雙重折疊預測(AlphaFold3和Chai-1)、置信度指標(鏈pAE和ipTM)、活性口袋接觸數、溶劑暴露程度、凈電荷和表面疏水性等多項過濾,研究團隊最終挑選出90個設計用于實驗測試,沒有對任何序列或結構進行后期重新設計。
這90個設計被分為四組,分別測試四種不同的卡賓轉移反應。第一種是對甲氧基苯乙烯與重氮乙酸乙酯(EDA)的烯烴環丙烷化反應;第二種是1,3-二甲基咪唑-2-亞基硼烷與重氮丙酸乙酯(EDP)的B-H鍵插入反應;第三種是1-苯基吡咯烷與EDA的C(sp?)-H鍵烷基化反應;第四種是叔丁基-3-亞甲基氮雜環丁烷-1-羧酸酯與EDA的螺環丙烷化反應,這是一類在藥物合成中極具價值但技術上極具挑戰性的反應。
七、實驗結果:超越人工進化的活性,發現全新的活性位點結構
測試結果令人振奮。
在烯烴環丙烷化反應中,最佳設計達到了72%的產率和4050的總周轉數(TTN,可以理解為每個酶分子能催化多少次反應),反式/順式非對映選擇比高達99:1。這一數字超越了早期進化的P411酶(364 TTN)和近期基于卟啉theozyme設計的PNC2酶(630 TTN)。
B-H鍵插入反應的結果更為驚人:最佳設計達到了98%的產率和5170 TTN,遠超此前的起始點(120 TTN,來自Rma細胞色素c)和實驗室經多輪進化才達到的最優變體(2490 TTN)。換句話說,DISCO從頭設計的第一版就超越了科學家花費大量時間和精力進化出來的最終版本。
C(sp?)-H鍵插入是最具挑戰性的反應之一,此前需要14輪定向進化才能獲得滿意的催化劑,且由于機制不明而無法構建theozyme。DISCO的最佳設計達到了42%的產率和2360 TTN,與經歷了漫長進化歷程的P411-CHF催化劑的最優性能(2030 TTN)旗鼓相當。
螺環丙烷化是最難的反應,活性變體數量較少,活性也相對較低,但仍有多個設計顯示出可檢測的活性并對映選擇性高達35% ee。值得注意的是,不同設計對兩種對映體的偏好方向各異,說明DISCO探索的活性口袋幾何結構確實呈現出多樣性。
在所有四種反應中,2.2%到66%的設計活性超過了陰性對照(表達無關蛋白的大腸桿菌)。90個設計中沒有任何兩個序列相似性超過50%,75個形成了結構上完全不同的聚類(TM得分閾值0.5),證明了設計多樣性的真實性。
這些設計的活性位點結構更是令人稱奇。通過Folddisco在AlphaFoldDB中搜索,超過80%的活性口袋(以最近五個殘基為單位)找不到已知同源物。以最佳螺環丙烷化設計dCT-H11為例,其活性位點最近五個殘基的RMSD與AlphaFoldDB中最相近結構之間高達7.40埃——這幾乎是完全不同的空間排列。
同樣值得關注的是,這些酶在全局結構層面同樣是新穎的:dCT-H11的最近結構相似物是一個來自極端嗜鹽菌的TetR家族轉錄因子(TM得分0.81,序列同一性僅21%),這個同源物本身并沒有任何已知的催化活性;dCT-F9和dCT-G9的最近結構相似物TM得分只有0.52和0.51,在AlphaFoldDB中找不到對應的活性口袋模體。沒有任何一個最近結構相似物是天然的含血紅素蛋白——這意味著DISCO捕捉到了血紅素結合與卡賓轉移所需要的底層生化原理,并將其移植到了全新的蛋白質拓撲結構中。
八、可進化性的驗證——一輪隨機突變就能顯著提升活性
僅僅具有初始活性還不夠。研究團隊特別測試了一個在實際應用中至關重要的特性:這些設計能否像天然蛋白質一樣,通過定向進化進一步提升性能?
他們選擇了螺環丙烷化反應(設計活性相對較弱)和dCT-H11作為目標,進行了一輪易錯PCR隨機突變,篩選了大約700個突變體。結果顯示,約35個變體相對于親本酶顯示出明顯更高的活性,其中一些不僅提升了親本偏好方向的對映選擇性(從+35% ee提升到+49% ee),還有一些將對映選擇性完全翻轉到相反方向(從+35% ee變為-35% ee)。產生顯著效果的突變位點分散在蛋白質序列各處,而非集中在活性口袋附近,這種"長程表位效應"正是天然酶進化的典型特征。
這一結果證明,DISCO設計的蛋白質不僅僅是孤立的功能點,而是處于適應性景觀中一個具有向上爬坡路徑的有利位置——這正是定向進化能夠持續工作的前提條件。
歸根結底,DISCO這項工作回答了一個讓蛋白質工程師長期困擾的問題:對于那些自然界從未觸碰過的化學反應,我們究竟能不能直接設計出起點?答案已經非常清晰:可以,而且可以做得相當好。
DISCO提供的核心能力有三:第一,序列與結構真正同步生成,兩者相互約束、協同優化,而非順序流水線;第二,可以以任意化學物種為條件,無需預先指定任何催化殘基或幾何約束;第三,設計本身落在可進化的序列空間中,能夠作為后續定向進化的有效起點。
這對制藥、精細化學品合成和綠色化工等領域的潛在影響是實實在在的:以往需要花費數年時間、進行數千次篩選才能找到的酶起始點,如今可能只需要一臺計算機和幾周時間就能獲得,而且可以為各種此前完全不可能酶催化的反應來嘗試。
當然,值得保持冷靜的是,目前的結果仍然集中在卡賓轉移這一類特定的化學反應上,反應的底物范圍也有限。螺環丙烷化活性的相對較弱也提示,并非所有反應都能以同等效率被設計。對于更復雜的催化機制——例如需要精確酸堿協同或多步化學的反應——DISCO當前的方法是否同樣有效,還有待驗證。
不過,這些都是"如何做得更好"的問題,而不是"能不能做"的問題。門已經打開了。
有興趣深入了解技術細節的讀者,可以通過arXiv編號2604.05181查閱完整論文,模型代碼和權重也已開源,地址是github.com/DISCO-design/DISCO。
Q&A
Q1:DISCO和傳統蛋白質設計方法的核心區別是什么?
A:傳統方法是"先設計三維結構骨架,再用逆折疊工具推算匹配的氨基酸序列",兩個步驟完全分離,序列信息無法影響結構生成階段。DISCO則把兩個過程合并到一個模型中同步進行,序列和結構在每一個生成步驟中相互感知、互相約束,就像兩只手同時塑造一件作品。這種協同設計使模型能在不預先指定任何活性位點殘基的情況下,直接圍繞化學反應中間體設計出有功能的蛋白質。
Q2:DISCO設計的酶活性為什么能超過人工進化多年的版本?
A:這并不意味著DISCO"更聰明",而是反映了兩種策略的不同起點。定向進化受限于初始蛋白質的序列空間,每一輪突變只能在已有結構基礎上小幅探索。DISCO則完全沒有這種約束,它可以探索自然界從未出現過的全新蛋白質折疊和活性口袋幾何結構。當一個全新的口袋幾何形狀恰好比進化起點更適合某個反應時,DISCO的設計自然就能超越進化的結果。
Q3:DISCO設計的蛋白質能不能用于藥物生產或工業合成?
A:目前的研究結果表明技術上是可行的,但距離實際工業應用還有幾個步驟。現有設計已經能在大腸桿菌全細胞體系中催化反應并產生可量化的產物,且經過一輪隨機突變就能進一步提升活性,這說明它們是可以通過定向進化優化的有效起點。但工業應用通常還需要更高的穩定性、更寬的底物范圍和更嚴格的立體選擇性控制,這些都需要后續的工程優化工作來完成。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.