<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      KAIST AI團隊革命性突破:讓分子生成模型首次接近完美準確度

      0
      分享至


      分子藥物發現,這個聽起來非常高深的領域,實際上就像是在一個巨大的樂高積木庫里尋找能拼成完美城堡的組合。傳統上,科學家們需要花費數年甚至數十年的時間,在實驗室里一個一個地測試不同的分子組合,看看哪種能成為治療疾病的良藥。這個過程不僅耗時耗力,更像是在茫茫大海中撈針。

      這項由韓國科學技術院(KAIST)人工智能實驗室領導、聯合LG人工智能研究院和首爾國立大學共同完成的研究,發表于2025年2月《神經信息處理系統進展》期刊,為這個難題帶來了突破性解決方案。感興趣的讀者可以通過論文編號arXiv:2602.17602查詢完整研究內容。

      傳統的分子設計方法主要分為兩大類。第一類把分子當作文字來處理,就像把分子結構寫成一串特殊的化學"密碼",然后讓計算機像學習語言一樣學會生成新的分子密碼。這種方法雖然能生成有效的分子,但就像背書一樣,容易產生千篇一律的結果,缺乏創新性。第二類方法則把分子看作由原子和化學鍵組成的復雜網絡圖,就像城市的交通網絡圖一樣,每個原子是一個站點,化學鍵是連接站點的道路。這種方法更能捕捉分子的真實結構特征,能設計出更多樣化的分子,但問題在于生成的分子經常不符合化學規律,就像設計出的交通網絡在現實中無法正常運行。

      研究團隊面臨的核心挑戰是:如何既保持圖網絡方法的結構創新能力,又確保生成的分子符合化學規律?他們發現現有方法存在兩個關鍵缺陷。首先,現有的分子生成過程把每種原子都當作完全獨立的個體來處理,忽略了化學世界中原子間存在天然的親緣關系。比如,在化學世界里,氮原子和氧原子比氮原子和氯原子更容易相互替換,但傳統方法無法識別這種化學直覺。其次,現有方法用過于簡化的標簽來描述原子,就像用"人"這一個詞來描述所有人類,無法區分"上班族"、"學生"、"醫生"等不同身份的人。在分子世界里,同樣是碳原子,但處于苯環中的芳香性碳原子和普通的碳原子具有截然不同的化學性質,傳統方法無法有效區分它們。

      為了解決這些問題,研究團隊開發了名為MolHIT的新框架。這個框架的核心創新在于兩個方面:分層離散擴散模型和解耦原子編碼技術。

      一、分層離散擴散模型:從粗到精的智能生成策略

      分層離散擴散模型就像是一個經驗豐富的廚師制作復雜菜肴的過程。傳統方法就像直接把所有食材混在一起烹飪,很容易做出奇怪的味道。而MolHIT的方法更像是先決定要做什么類型的菜(中式還是西式),然后確定具體的菜品(紅燒肉還是糖醋排骨),最后才處理具體的調料搭配。

      在分子生成的語境下,這個過程被分為三個層次。最開始,系統生成的是完全隨機的"噪聲"狀態,就像一堆雜亂無章的積木塊。然后,系統首先將這些噪聲逐步轉化為中等層次的化學基團,比如決定這部分區域應該是"鹵素元素區"(包括氟、氯、溴等)、"氮氧硫區"還是"芳香環區"。這就像先規劃城市的功能區域,決定哪里是商業區、哪里是住宅區。接下來,系統在每個功能區內部繼續細化,將"鹵素元素區"具體化為氟原子、氯原子或溴原子,將"芳香環區"具體化為苯環中的碳原子、氮原子等。

      這種分層方法的妙處在于充分利用了化學知識中的層次關系。研究團隊通過數學證明確保了這個過程的理論正確性,建立了嚴格的數學框架來保證生成過程的穩定性和可控性。具體來說,他們定義了一系列遞減的時間參數αt和βt來控制不同層次間的轉換速度,并證明了這種轉換滿足數學上的Chapman-Kolmogorov方程,確保了整個生成過程的數學一致性。

      在實際應用中,研究團隊采用了一種被他們稱為"項目-噪聲采樣器"的特殊技術。傳統方法在每一步生成中都嚴格按照數學理論要求的后驗概率分布進行采樣,這雖然理論上正確,但在實踐中往往限制了分子結構的多樣性探索。新的采樣器采用了更靈活的策略:先根據模型預測生成一個候選分子結構,然后將這個候選結構重新加噪到前一個時間步,這樣既保持了生成的多樣性,又確保了化學合理性。同時,他們還引入了溫度采樣和nucleus采樣技術,通過調節"溫度"參數來控制生成結果的質量和新穎性之間的平衡。

      二、解耦原子編碼:讓每個原子都有專屬身份證

      解耦原子編碼技術解決了傳統方法中"一個標簽描述所有情況"的問題。這就像為每個人制作詳細的身份證,不僅標明基本的"人類"身份,還要注明具體的職業、居住地、特殊技能等信息。

      在傳統的分子表示方法中,所有的碳原子都被簡單地標記為"C",無論它們是在普通的鏈狀結構中,還是在具有特殊性質的芳香環中。這種簡化造成了嚴重的信息丟失。研究團隊通過實驗發現,使用傳統編碼方法時,在分子重構任務中,含有特殊氮原子結構(如吡咯氮[nH])的分子重構成功率僅為1.9%,這意味著模型幾乎無法正確理解和生成這些重要的化學結構。

      新的解耦原子編碼方法為每個原子分配了多維度的身份標識。以氮原子為例,系統不再簡單地用"N"來表示,而是會區分"普通氮原子(N)"、"芳香環中的氮原子(n)"、"帶正電荷的氮原子(N+)"、"吡咯型氮原子(nH)"等不同類型。這種精細化的區分使得模型能夠準確理解不同原子在分子中的具體作用和性質。

      在MOSES數據集上,研究團隊將原本的7種基本原子類型擴展為12種精細化標記,在GuacaMol數據集上更是從12種基本類型擴展到56種精細化標記。這種擴展不是簡單的數量增加,而是基于化學原理的系統性分類。比如,他們將原子按照芳香性(是否在芳香環中)、電荷狀態(中性、帶正電、帶負電)、氫化程度等維度進行分類,確保每種分類都對應真實的化學差異。

      使用解耦原子編碼后,分子重構的成功率從傳統方法的80.4%提升到接近100%。更重要的是,生成的分子中包含特殊原子結構的比例也顯著提升,使得模型能夠生成更多樣化和化學意義更豐富的分子結構。

      三、采樣優化:在質量與創新之間找到完美平衡

      研究團隊還開發了創新的采樣策略來進一步優化生成效果。他們發現,傳統的采樣方法往往在分子生成的質量(化學有效性)和新穎性(結構創新性)之間存在權衡困境。高質量往往意味著生成的分子過于保守,缺乏創新性;而追求新穎性則容易產生化學上不合理的結構。

      為了解決這個問題,他們引入了溫度采樣和top-p(nucleus)采樣技術。溫度采樣通過調節一個"溫度"參數來控制生成過程的隨機性,較低的溫度使生成過程更加確定性,傾向于產生化學上更穩定的結構;較高的溫度則增加隨機性,鼓勵生成更新穎的結構。Top-p采樣則在每一步生成中只考慮累積概率達到閾值p的候選原子,過濾掉概率極低的不合理選擇,同時保持足夠的多樣性。

      實驗結果顯示,當top-p值設置為0.8時,MolHIT能夠達到最佳的質量-新穎性平衡,生成的分子既具有高達99.4%的化學有效性,又保持了95.1%的高質量分數。這種精確的參數控制使得研究人員可以根據具體需求調節生成策略,在藥物發現的不同階段應用不同的采樣參數。

      四、實驗驗證:全方位碾壓現有方法

      研究團隊在多個大規模分子數據集上進行了全面的實驗驗證,結果令人震撼。在最具權威性的MOSES基準測試中,MolHIT在幾乎所有關鍵指標上都實現了顯著突破。

      在化學有效性方面,MolHIT達到了99.1%的驚人準確率,這是圖形擴散模型首次接近完美的表現。相比之下,之前最好的圖形擴散方法DeFoG的有效性僅為92.8%,而其他方法如DiGress為87.1%,Cometh為87.2%。更令人印象深刻的是,MolHIT不僅超越了所有現有的圖形方法,甚至在有效性上與專門優化過的序列方法(如SAFE-GPT的99.8%)相當,這打破了長期以來認為圖形方法在有效性上無法與序列方法競爭的觀念。

      在結構新穎性方面,MolHIT同樣表現出色。在衡量模型探索新化學空間能力的"支架新穎性"指標上,MolHIT達到了0.39的分數,顯著超過了之前的圖形方法(DeFoG和DiGress均為0.26),甚至超越了以探索性著稱的序列方法(CharRNN為0.29)。這意味著MolHIT不僅能生成化學上有效的分子,還能發現訓練數據中不存在的新穎分子骨架結構。

      在綜合質量評估中,MolHIT取得了94.2%的質量分數,這個分數綜合考慮了分子的有效性、唯一性、合成可及性和藥物相似性。這一成績不僅超越了所有圖形擴散方法,也超過了大部分序列方法,僅略低于一些高度優化的序列模型。

      研究團隊還在更具挑戰性的GuacaMol數據集上進行了測試。與MOSES數據集不同,GuacaMol包含了更多帶電荷的分子和復雜的化學結構。在這個更困難的測試中,MolHIT依然保持了87.1%的有效性,遠超在同樣條件下訓練的DiGress(74.7%)和加入解耦原子編碼的DiGress(65.2%)。這證明了MolHIT框架的穩健性和普適性。

      五、條件生成:精確控制分子屬性

      除了無條件生成,研究團隊還驗證了MolHIT在條件生成任務中的表現。條件生成是指根據特定的化學屬性要求生成分子,這在實際藥物發現中具有重要意義,就像根據病人的具體需求定制藥物一樣。

      在多屬性條件生成實驗中,研究團隊選擇了四個關鍵的分子屬性:藥物相似性(QED)、合成可及性(SA)、脂水分配系數(logP)和分子量(MW)。這些屬性就像是分子的"體檢指標",決定了分子是否具有成為藥物的潛力。

      實驗結果顯示,MolHIT在所有四個屬性上的控制精度都達到了新的高度。平均絕對誤差從基線方法的0.122降低到0.058,相當于誤差減少了52.4%。在相關性分析中,MolHIT與目標屬性的皮爾森相關系數達到了0.807,其中在脂水分配系數的控制上幾乎達到了完美的0.950相關性。更重要的是,即使在嚴格的屬性控制要求下,生成分子的有效性依然保持在96.31%的高水平。

      在支架擴展任務中,MolHIT也展現了出色的能力。支架擴展是指在給定分子骨架的基礎上,生成完整的分子結構,就像在建筑的框架基礎上設計完整的房屋。在這個任務中,MolHIT的有效性達到了83.9%,遠高于DiGress的50.8%,同時在精確匹配率上也取得了顯著提升,在Top-1和Top-5匹配率上分別達到了3.92%和9.79%。

      六、消融實驗:解析成功的關鍵因素

      為了理解MolHIT成功的具體原因,研究團隊進行了詳細的消融實驗,逐一驗證每個技術組件的貢獻。他們從基礎的DiGress方法開始,逐步加入解耦原子編碼、項目-噪聲采樣器和分層離散擴散模型,觀察每一步改進對最終性能的影響。

      結果顯示,每個組件都對最終性能產生了顯著的正面影響。加入解耦原子編碼后,質量分數從82.5%提升到87.6%,有效性從87.1%提升到96.2%,這證明了精細化原子表示的重要性。引入項目-噪聲采樣器后,質量分數進一步提升到92.9%,有效性達到99.4%,驗證了采樣策略優化的價值。最后加入分層離散擴散模型后,系統達到了最終的94.2%質量分數和99.1%有效性,證明了分層生成策略的有效性。

      特別值得注意的是,研究團隊還驗證了溫度采樣參數的影響。他們發現,隨著top-p值從1.0降低到0.8,生成質量穩步提升,但當參數進一步降低時,雖然質量繼續提高,但結構新穎性會急劇下降。這為實際應用中的參數選擇提供了重要指導。

      說到底,這項研究的最大意義在于首次讓基于圖結構的分子生成方法在保持結構創新能力的同時,也達到了接近完美的化學準確性。這打破了長期以來存在于該領域的性能天花板,為AI輔助藥物發現開辟了新的道路。

      從實際應用角度來看,MolHIT的突破意味著藥物研發人員現在可以更加信任AI生成的分子建議。以往,研究人員需要花費大量時間驗證AI生成分子的化學合理性,現在這個過程可以大大簡化。同時,99.1%的有效性意味著在1000個AI生成的分子中,只有不到10個是化學上不合理的,這大大降低了后續實驗驗證的成本。

      更重要的是,MolHIT展現出的在質量和創新性之間的精確平衡能力,為不同階段的藥物發現提供了靈活的工具。在早期的藥物篩選階段,研究人員可以調節參數以鼓勵更多的結構創新,發現全新的藥物骨架。在后期的優化階段,則可以調節參數以確保生成的分子變體都具有高度的化學穩定性和合成可能性。

      這項研究不僅在技術上實現了突破,更重要的是證明了將化學領域知識與先進AI技術深度融合的巨大潛力。通過引入化學直覺(分層化學基團關系)和精確的原子描述(解耦原子編碼),MolHIT展示了如何讓AI系統更好地理解和遵循科學規律,這種思路對其他科學領域的AI應用也具有重要的借鑒價值。

      未來,隨著這種技術的進一步完善和推廣,我們有理由期待AI在藥物發現中扮演更加重要的角色,不僅能夠加速新藥的發現過程,還能夠探索人類研究人員可能忽略的新穎化學空間。這最終可能會為治療目前無藥可醫的疾病帶來新的希望,讓AI真正成為人類健康的守護者。

      Q&A

      Q1:MolHIT是什么技術?

      A:MolHIT是由韓國科學技術院開發的分子生成人工智能框架,它能夠自動設計新的藥物分子。與傳統方法不同,MolHIT采用分層生成策略和精細化原子描述,在保持創新性的同時達到了99.1%的化學準確率,這是圖形擴散模型首次接近完美表現。

      Q2:MolHIT比現有的分子生成方法好在哪里?

      A:MolHIT的最大優勢是同時實現了高準確性和高創新性。傳統的圖形方法雖然能生成新穎結構但準確率只有87-93%,而序列方法雖然準確率高但缺乏創新。MolHIT通過分層化學基團生成和解耦原子編碼技術,將準確率提升到99.1%,同時在結構新穎性上也超越了現有方法。

      Q3:MolHIT對藥物研發有什么實際意義?

      A:MolHIT能夠大大加速藥物發現過程并降低成本。99.1%的準確率意味著研究人員不需要花費大量時間驗證AI生成分子的合理性,1000個生成分子中只有不到10個不符合化學規律。同時,它還能發現訓練數據中不存在的新分子結構,為治療疑難疾病提供新的可能性。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      近40國聯手封殺:俄海外雇傭兵招募徹底遇阻,36個友好國赫然在列

      近40國聯手封殺:俄海外雇傭兵招募徹底遇阻,36個友好國赫然在列

      老馬拉車莫少裝
      2026-02-24 22:46:14
      你見過哪些悶聲發大財的人?網友:干這個買三套房子,兩個門面

      你見過哪些悶聲發大財的人?網友:干這個買三套房子,兩個門面

      夜深愛雜談
      2026-02-01 18:57:04
      美荷兩國曾同時發聲,對中國獨立研發的光刻機技術給予了強烈批評

      美荷兩國曾同時發聲,對中國獨立研發的光刻機技術給予了強烈批評

      來科點譜
      2026-02-27 07:32:59
      春節后,這4種蔬菜不要隨便買!菜販子:我從來不吃,顧客搶著買

      春節后,這4種蔬菜不要隨便買!菜販子:我從來不吃,顧客搶著買

      阿龍美食記
      2026-02-26 10:37:19
      三名新任省委常委新職明確

      三名新任省委常委新職明確

      上觀新聞
      2026-02-27 14:46:22
      寒假開學不到90天就放暑假了!全國多地迎來近10年最短學期

      寒假開學不到90天就放暑假了!全國多地迎來近10年最短學期

      閃電新聞
      2026-02-27 21:47:59
      國家稅務總局紅河州稅務局黨委書記、局長、督辦劉毅被查

      國家稅務總局紅河州稅務局黨委書記、局長、督辦劉毅被查

      瀟湘晨報
      2026-02-26 17:19:31
      美伊談判基本告吹、攻擊隨時可能開始;另,巴基斯坦或攻入阿富汗

      美伊談判基本告吹、攻擊隨時可能開始;另,巴基斯坦或攻入阿富汗

      邵旭峰域
      2026-02-27 10:54:56
      86歲暢銷書作家楊本芬就“抄襲”道歉!曾獲谷雨文學獎,“出圈”代表作被曝與王朔、余華等人作品高度相似

      86歲暢銷書作家楊本芬就“抄襲”道歉!曾獲谷雨文學獎,“出圈”代表作被曝與王朔、余華等人作品高度相似

      都市快報橙柿互動
      2026-02-27 11:37:59
      寧抓國際友人,不抓莫斯科少爺:俄羅斯1.4億人中有兩千萬不能碰

      寧抓國際友人,不抓莫斯科少爺:俄羅斯1.4億人中有兩千萬不能碰

      黃娜老師
      2026-02-27 03:15:43
      教育部發布會答封面新聞:北京市破除唯分數論導向,減輕學生應試負擔和焦慮

      教育部發布會答封面新聞:北京市破除唯分數論導向,減輕學生應試負擔和焦慮

      封面新聞
      2026-02-27 17:49:29
      中領館提醒: 18-65歲在俄長期居留男性 須同意在俄軍事單位等至少服役1年

      中領館提醒: 18-65歲在俄長期居留男性 須同意在俄軍事單位等至少服役1年

      閃電新聞
      2026-02-26 12:46:48
      巴拿馬總統稱巴接管長和運營港口后中國不會反制,外交部回應

      巴拿馬總統稱巴接管長和運營港口后中國不會反制,外交部回應

      澎湃新聞
      2026-02-27 15:36:35
      WTT新加坡大滿貫:雨果張本智和接連爆冷出局,王曼昱今再戰張本美和

      WTT新加坡大滿貫:雨果張本智和接連爆冷出局,王曼昱今再戰張本美和

      上觀新聞
      2026-02-28 04:47:08
      上海是個垃圾桶,全國的垃圾都來上海

      上海是個垃圾桶,全國的垃圾都來上海

      上海云河
      2026-02-26 22:23:23
      你家里有鐵皮茶葉盒嗎?趕緊回家找出來,作用太厲害花錢都難買!

      你家里有鐵皮茶葉盒嗎?趕緊回家找出來,作用太厲害花錢都難買!

      妙招酷
      2026-02-26 23:48:36
      杭州一地發布放假通知:連休10天!浙江各地時間表也排定

      杭州一地發布放假通知:連休10天!浙江各地時間表也排定

      都市快報橙柿互動
      2026-02-27 15:56:56
      為何郭士強挑戰違體仍領T?日本媒體公布證據,被指吹T是否冤冤?

      為何郭士強挑戰違體仍領T?日本媒體公布證據,被指吹T是否冤冤?

      一盅情懷
      2026-02-27 18:28:36
      BBA集體 “大跳水”!奧迪跌破10萬,寶馬降27萬...網友:感謝新能源!

      BBA集體 “大跳水”!奧迪跌破10萬,寶馬降27萬...網友:感謝新能源!

      極果酷玩
      2026-02-26 16:49:51
      谷歌生圖新王Nano Banana 2深夜突襲!性能屠榜速度飛升,價格腰斬【附實測】

      谷歌生圖新王Nano Banana 2深夜突襲!性能屠榜速度飛升,價格腰斬【附實測】

      智東西
      2026-02-27 04:19:56
      2026-02-28 06:12:49
      至頂AI實驗室 incentive-icons
      至頂AI實驗室
      一個專注于探索生成式AI前沿技術及其應用的實驗室。
      1958文章數 162關注度
      往期回顧 全部

      科技要聞

      狂攬1100億美元!OpenAI再創融資神話

      頭條要聞

      特朗普警告伊朗:“有時候不得不打”

      頭條要聞

      特朗普警告伊朗:“有時候不得不打”

      體育要聞

      一場必須要贏的比賽,男籃何止擊敗了裁判

      娛樂要聞

      郭晶晶霍啟剛現身香港藝術節盡顯恩愛

      財經要聞

      沈明高提共富建議 百姓持科技股國家兜底

      汽車要聞

      嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

      態度原創

      時尚
      家居
      親子
      手機
      教育

      舒淇最愛穿的裙子搭配,真的很適合春天!

      家居要聞

      素色肌理 品意式格調

      親子要聞

      1歲娃心臟有個大洞,英國醫生說沒救了!結果網友眾籌150萬,硬給救活了!

      手機要聞

      榮耀600系列再次被確認:9000mAh+兩億像素,處理器有懸念!

      教育要聞

      寫字歪歪扭扭?四線格本輕松搞定!

      無障礙瀏覽 進入關懷版