網易首頁 > 網易號 > 正文申請入駐

KAIST AI團隊革命性突破：讓分子生成模型首次接近完美準確度

2026-02-27 23:01:19　來源: 至頂AI實驗室

北京舉報

分享至

分子藥物發現，這個聽起來非常高深的領域，實際上就像是在一個巨大的樂高積木庫里尋找能拼成完美城堡的組合。傳統上，科學家們需要花費數年甚至數十年的時間，在實驗室里一個一個地測試不同的分子組合，看看哪種能成為治療疾病的良藥。這個過程不僅耗時耗力，更像是在茫茫大海中撈針。

這項由韓國科學技術院（KAIST）人工智能實驗室領導、聯合LG人工智能研究院和首爾國立大學共同完成的研究，發表于2025年2月《神經信息處理系統進展》期刊，為這個難題帶來了突破性解決方案。感興趣的讀者可以通過論文編號arXiv:2602.17602查詢完整研究內容。

傳統的分子設計方法主要分為兩大類。第一類把分子當作文字來處理，就像把分子結構寫成一串特殊的化學"密碼"，然后讓計算機像學習語言一樣學會生成新的分子密碼。這種方法雖然能生成有效的分子，但就像背書一樣，容易產生千篇一律的結果，缺乏創新性。第二類方法則把分子看作由原子和化學鍵組成的復雜網絡圖，就像城市的交通網絡圖一樣，每個原子是一個站點，化學鍵是連接站點的道路。這種方法更能捕捉分子的真實結構特征，能設計出更多樣化的分子，但問題在于生成的分子經常不符合化學規律，就像設計出的交通網絡在現實中無法正常運行。

研究團隊面臨的核心挑戰是：如何既保持圖網絡方法的結構創新能力，又確保生成的分子符合化學規律？他們發現現有方法存在兩個關鍵缺陷。首先，現有的分子生成過程把每種原子都當作完全獨立的個體來處理，忽略了化學世界中原子間存在天然的親緣關系。比如，在化學世界里，氮原子和氧原子比氮原子和氯原子更容易相互替換，但傳統方法無法識別這種化學直覺。其次，現有方法用過于簡化的標簽來描述原子，就像用"人"這一個詞來描述所有人類，無法區分"上班族"、"學生"、"醫生"等不同身份的人。在分子世界里，同樣是碳原子，但處于苯環中的芳香性碳原子和普通的碳原子具有截然不同的化學性質，傳統方法無法有效區分它們。

為了解決這些問題，研究團隊開發了名為MolHIT的新框架。這個框架的核心創新在于兩個方面：分層離散擴散模型和解耦原子編碼技術。

一、分層離散擴散模型：從粗到精的智能生成策略

分層離散擴散模型就像是一個經驗豐富的廚師制作復雜菜肴的過程。傳統方法就像直接把所有食材混在一起烹飪，很容易做出奇怪的味道。而MolHIT的方法更像是先決定要做什么類型的菜（中式還是西式），然后確定具體的菜品（紅燒肉還是糖醋排骨），最后才處理具體的調料搭配。

在分子生成的語境下，這個過程被分為三個層次。最開始，系統生成的是完全隨機的"噪聲"狀態，就像一堆雜亂無章的積木塊。然后，系統首先將這些噪聲逐步轉化為中等層次的化學基團，比如決定這部分區域應該是"鹵素元素區"（包括氟、氯、溴等）、"氮氧硫區"還是"芳香環區"。這就像先規劃城市的功能區域，決定哪里是商業區、哪里是住宅區。接下來，系統在每個功能區內部繼續細化，將"鹵素元素區"具體化為氟原子、氯原子或溴原子，將"芳香環區"具體化為苯環中的碳原子、氮原子等。

這種分層方法的妙處在于充分利用了化學知識中的層次關系。研究團隊通過數學證明確保了這個過程的理論正確性，建立了嚴格的數學框架來保證生成過程的穩定性和可控性。具體來說，他們定義了一系列遞減的時間參數αt和βt來控制不同層次間的轉換速度，并證明了這種轉換滿足數學上的Chapman-Kolmogorov方程，確保了整個生成過程的數學一致性。

在實際應用中，研究團隊采用了一種被他們稱為"項目-噪聲采樣器"的特殊技術。傳統方法在每一步生成中都嚴格按照數學理論要求的后驗概率分布進行采樣，這雖然理論上正確，但在實踐中往往限制了分子結構的多樣性探索。新的采樣器采用了更靈活的策略：先根據模型預測生成一個候選分子結構，然后將這個候選結構重新加噪到前一個時間步，這樣既保持了生成的多樣性，又確保了化學合理性。同時，他們還引入了溫度采樣和nucleus采樣技術，通過調節"溫度"參數來控制生成結果的質量和新穎性之間的平衡。

二、解耦原子編碼：讓每個原子都有專屬身份證

解耦原子編碼技術解決了傳統方法中"一個標簽描述所有情況"的問題。這就像為每個人制作詳細的身份證，不僅標明基本的"人類"身份，還要注明具體的職業、居住地、特殊技能等信息。

在傳統的分子表示方法中，所有的碳原子都被簡單地標記為"C"，無論它們是在普通的鏈狀結構中，還是在具有特殊性質的芳香環中。這種簡化造成了嚴重的信息丟失。研究團隊通過實驗發現，使用傳統編碼方法時，在分子重構任務中，含有特殊氮原子結構（如吡咯氮[nH]）的分子重構成功率僅為1.9%，這意味著模型幾乎無法正確理解和生成這些重要的化學結構。

新的解耦原子編碼方法為每個原子分配了多維度的身份標識。以氮原子為例，系統不再簡單地用"N"來表示，而是會區分"普通氮原子（N）"、"芳香環中的氮原子（n）"、"帶正電荷的氮原子（N+）"、"吡咯型氮原子（nH）"等不同類型。這種精細化的區分使得模型能夠準確理解不同原子在分子中的具體作用和性質。

在MOSES數據集上，研究團隊將原本的7種基本原子類型擴展為12種精細化標記，在GuacaMol數據集上更是從12種基本類型擴展到56種精細化標記。這種擴展不是簡單的數量增加，而是基于化學原理的系統性分類。比如，他們將原子按照芳香性（是否在芳香環中）、電荷狀態（中性、帶正電、帶負電）、氫化程度等維度進行分類，確保每種分類都對應真實的化學差異。

使用解耦原子編碼后，分子重構的成功率從傳統方法的80.4%提升到接近100%。更重要的是，生成的分子中包含特殊原子結構的比例也顯著提升，使得模型能夠生成更多樣化和化學意義更豐富的分子結構。

三、采樣優化：在質量與創新之間找到完美平衡

研究團隊還開發了創新的采樣策略來進一步優化生成效果。他們發現，傳統的采樣方法往往在分子生成的質量（化學有效性）和新穎性（結構創新性）之間存在權衡困境。高質量往往意味著生成的分子過于保守，缺乏創新性；而追求新穎性則容易產生化學上不合理的結構。

為了解決這個問題，他們引入了溫度采樣和top-p（nucleus）采樣技術。溫度采樣通過調節一個"溫度"參數來控制生成過程的隨機性，較低的溫度使生成過程更加確定性，傾向于產生化學上更穩定的結構；較高的溫度則增加隨機性，鼓勵生成更新穎的結構。Top-p采樣則在每一步生成中只考慮累積概率達到閾值p的候選原子，過濾掉概率極低的不合理選擇，同時保持足夠的多樣性。

實驗結果顯示，當top-p值設置為0.8時，MolHIT能夠達到最佳的質量-新穎性平衡，生成的分子既具有高達99.4%的化學有效性，又保持了95.1%的高質量分數。這種精確的參數控制使得研究人員可以根據具體需求調節生成策略，在藥物發現的不同階段應用不同的采樣參數。

四、實驗驗證：全方位碾壓現有方法

研究團隊在多個大規模分子數據集上進行了全面的實驗驗證，結果令人震撼。在最具權威性的MOSES基準測試中，MolHIT在幾乎所有關鍵指標上都實現了顯著突破。

在化學有效性方面，MolHIT達到了99.1%的驚人準確率，這是圖形擴散模型首次接近完美的表現。相比之下，之前最好的圖形擴散方法DeFoG的有效性僅為92.8%，而其他方法如DiGress為87.1%，Cometh為87.2%。更令人印象深刻的是，MolHIT不僅超越了所有現有的圖形方法，甚至在有效性上與專門優化過的序列方法（如SAFE-GPT的99.8%）相當，這打破了長期以來認為圖形方法在有效性上無法與序列方法競爭的觀念。

在結構新穎性方面，MolHIT同樣表現出色。在衡量模型探索新化學空間能力的"支架新穎性"指標上，MolHIT達到了0.39的分數，顯著超過了之前的圖形方法（DeFoG和DiGress均為0.26），甚至超越了以探索性著稱的序列方法（CharRNN為0.29）。這意味著MolHIT不僅能生成化學上有效的分子，還能發現訓練數據中不存在的新穎分子骨架結構。

在綜合質量評估中，MolHIT取得了94.2%的質量分數，這個分數綜合考慮了分子的有效性、唯一性、合成可及性和藥物相似性。這一成績不僅超越了所有圖形擴散方法，也超過了大部分序列方法，僅略低于一些高度優化的序列模型。

研究團隊還在更具挑戰性的GuacaMol數據集上進行了測試。與MOSES數據集不同，GuacaMol包含了更多帶電荷的分子和復雜的化學結構。在這個更困難的測試中，MolHIT依然保持了87.1%的有效性，遠超在同樣條件下訓練的DiGress（74.7%）和加入解耦原子編碼的DiGress（65.2%）。這證明了MolHIT框架的穩健性和普適性。

五、條件生成：精確控制分子屬性

除了無條件生成，研究團隊還驗證了MolHIT在條件生成任務中的表現。條件生成是指根據特定的化學屬性要求生成分子，這在實際藥物發現中具有重要意義，就像根據病人的具體需求定制藥物一樣。

在多屬性條件生成實驗中，研究團隊選擇了四個關鍵的分子屬性：藥物相似性（QED）、合成可及性（SA）、脂水分配系數（logP）和分子量（MW）。這些屬性就像是分子的"體檢指標"，決定了分子是否具有成為藥物的潛力。

實驗結果顯示，MolHIT在所有四個屬性上的控制精度都達到了新的高度。平均絕對誤差從基線方法的0.122降低到0.058，相當于誤差減少了52.4%。在相關性分析中，MolHIT與目標屬性的皮爾森相關系數達到了0.807，其中在脂水分配系數的控制上幾乎達到了完美的0.950相關性。更重要的是，即使在嚴格的屬性控制要求下，生成分子的有效性依然保持在96.31%的高水平。

在支架擴展任務中，MolHIT也展現了出色的能力。支架擴展是指在給定分子骨架的基礎上，生成完整的分子結構，就像在建筑的框架基礎上設計完整的房屋。在這個任務中，MolHIT的有效性達到了83.9%，遠高于DiGress的50.8%，同時在精確匹配率上也取得了顯著提升，在Top-1和Top-5匹配率上分別達到了3.92%和9.79%。

六、消融實驗：解析成功的關鍵因素

為了理解MolHIT成功的具體原因，研究團隊進行了詳細的消融實驗，逐一驗證每個技術組件的貢獻。他們從基礎的DiGress方法開始，逐步加入解耦原子編碼、項目-噪聲采樣器和分層離散擴散模型，觀察每一步改進對最終性能的影響。

結果顯示，每個組件都對最終性能產生了顯著的正面影響。加入解耦原子編碼后，質量分數從82.5%提升到87.6%，有效性從87.1%提升到96.2%，這證明了精細化原子表示的重要性。引入項目-噪聲采樣器后，質量分數進一步提升到92.9%，有效性達到99.4%，驗證了采樣策略優化的價值。最后加入分層離散擴散模型后，系統達到了最終的94.2%質量分數和99.1%有效性，證明了分層生成策略的有效性。

特別值得注意的是，研究團隊還驗證了溫度采樣參數的影響。他們發現，隨著top-p值從1.0降低到0.8，生成質量穩步提升，但當參數進一步降低時，雖然質量繼續提高，但結構新穎性會急劇下降。這為實際應用中的參數選擇提供了重要指導。

說到底，這項研究的最大意義在于首次讓基于圖結構的分子生成方法在保持結構創新能力的同時，也達到了接近完美的化學準確性。這打破了長期以來存在于該領域的性能天花板，為AI輔助藥物發現開辟了新的道路。

從實際應用角度來看，MolHIT的突破意味著藥物研發人員現在可以更加信任AI生成的分子建議。以往，研究人員需要花費大量時間驗證AI生成分子的化學合理性，現在這個過程可以大大簡化。同時，99.1%的有效性意味著在1000個AI生成的分子中，只有不到10個是化學上不合理的，這大大降低了后續實驗驗證的成本。

更重要的是，MolHIT展現出的在質量和創新性之間的精確平衡能力，為不同階段的藥物發現提供了靈活的工具。在早期的藥物篩選階段，研究人員可以調節參數以鼓勵更多的結構創新，發現全新的藥物骨架。在后期的優化階段，則可以調節參數以確保生成的分子變體都具有高度的化學穩定性和合成可能性。

這項研究不僅在技術上實現了突破，更重要的是證明了將化學領域知識與先進AI技術深度融合的巨大潛力。通過引入化學直覺（分層化學基團關系）和精確的原子描述（解耦原子編碼），MolHIT展示了如何讓AI系統更好地理解和遵循科學規律，這種思路對其他科學領域的AI應用也具有重要的借鑒價值。

未來，隨著這種技術的進一步完善和推廣，我們有理由期待AI在藥物發現中扮演更加重要的角色，不僅能夠加速新藥的發現過程，還能夠探索人類研究人員可能忽略的新穎化學空間。這最終可能會為治療目前無藥可醫的疾病帶來新的希望，讓AI真正成為人類健康的守護者。

Q&A

Q1：MolHIT是什么技術？

A：MolHIT是由韓國科學技術院開發的分子生成人工智能框架，它能夠自動設計新的藥物分子。與傳統方法不同，MolHIT采用分層生成策略和精細化原子描述，在保持創新性的同時達到了99.1%的化學準確率，這是圖形擴散模型首次接近完美表現。

Q2：MolHIT比現有的分子生成方法好在哪里？

A：MolHIT的最大優勢是同時實現了高準確性和高創新性。傳統的圖形方法雖然能生成新穎結構但準確率只有87-93%，而序列方法雖然準確率高但缺乏創新。MolHIT通過分層化學基團生成和解耦原子編碼技術，將準確率提升到99.1%，同時在結構新穎性上也超越了現有方法。

Q3：MolHIT對藥物研發有什么實際意義？

A：MolHIT能夠大大加速藥物發現過程并降低成本。99.1%的準確率意味著研究人員不需要花費大量時間驗證AI生成分子的合理性，1000個生成分子中只有不到10個不符合化學規律。同時，它還能發現訓練數據中不存在的新分子結構，為治療疑難疾病提供新的可能性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.