隨著科學文獻量的持續增長,研究人員正在轉向人工智能來篩選數百萬篇研究論文,并發現可以加速新材料發現的見解。
![]()
在美國能源部阿貢國家實驗室超級計算機的支持下,劍橋大學的Jacqueline Cole和她的團隊正在開發人工智能工具,自動挖掘科學期刊文章以構建結構化材料數據庫。然后,這些數據集用于訓練專門的語言模型,以簡化材料研究。
“我們的目標是給你的實驗室里配備一個類似數字助理的東西。”Cole說,她是劍橋大學皇家工程研究院材料物理學教授,也是分子工程系主任。“一種通過回答問題和提供反饋來幫助指導實驗和指導研究的工具,是對科學家的補充。”
Cole在阿貢領導力計算設施(ALCF)的工作始于近十年前。2016年,她獲得了ALCF數據科學計劃的首批項目之一,該計劃擴大了該設施對模擬、數據科學和機器學習交叉領域工作負載的支持。目前已完成的項目幫助發展了使用ALCF資源進行人工智能驅動科學的研究人員社區,并擴大了員工的專業知識和能力,以支持這一新興領域。
![]()
“她的團隊是最早使用ALCF計算資源將機器學習與模擬和實驗結果相結合以推進數據驅動材料研究的團隊之一,”ALCF人工智能和機器學習團隊負責人Venkat Vishwanath說。“從開發ChemDataExtractor文本挖掘工具到根據研究論文構建自動化數據庫,他們的工作為加速材料設計和發現開辟了新的途徑。”
為了表彰該團隊的創新工作,Cole和合作者最近憑借他們的論文“從設計到設備的方法提供全色共敏化太陽能電池”獲得了英國皇家化學學會2025年材料化學地平線獎。在這項研究的基礎上,Cole繼續使用ALCF超級計算機開發人工智能工具,旨在加快尋找用于能源應用、光基技術和機械工程的新材料。
Cole最近的工作重點是開發更小、更快、更高效的人工智能模型來支持材料研究,而不需要從頭開始訓練大型語言模型(LLM),這通常需要的大量計算成本。
LLM是設計用于處理和生成人類語言的AI模型。構建LLM首先在大型數據集(如文本語料庫)上進行預訓練,以幫助模型學習通用語言模式。這個過程通常需要大量的計算能力。一旦模型經過訓練,研究人員就會使用更小、更有針對性的數據集對其進行微調,以確保它提供準確和相關的答案。
![]()
為了繞過昂貴的預訓練過程,Cole及其同事開發了一種從特定領域的材料數據生成大型、高質量問答(Q&A)數據集的方法。他們使用新的算法和ChemDataExtractor工具,將光伏材料數據庫轉換為數十萬個問答對。這個過程被稱為知識蒸餾,以現成的人工智能模型可以輕松攝取的形式捕獲詳細的材料信息。
Cole說:“重要的是,這種方法可以減輕語言模型本身的知識負擔。” “而不是依賴模型了解一切,我們以問答的形式讓它直接獲得精心策劃、結構化的知識。這意味著我們可以完全跳過預訓練,仍然可以實現特定領域的實用性。”
Cole的團隊使用問答對來微調較小的語言模型,這些模型繼續匹配或優于在一般文本上訓練的更大的模型,在特定領域的任務中實現了高達20%的準確率。雖然他們的研究集中在太陽能電池材料上,但這種方法可以廣泛應用于其他研究領域。
除了這項工作,該團隊還進行了相關研究,以開發針對材料科學特定領域的語言模型。在一篇論文中,Cole的團隊為航空航天和汽車等機械工程領域常用的材料建立了一個龐大的應力-應變特性數據庫。研究人員還開發了MechBERT,這是一種經過訓練的語言模型,可以回答有關應力-應變特性的問題,在預測應力下的材料行為方面優于標準工具。
![]()
在最近的另一項研究中,該團隊展示了如何在不犧牲性能的情況下,使用比傳統訓練方法少80%的計算能力來適應光電子學的語言模型。
這些努力,以及Cole團隊在過去十年中在ALCF的支持下發表的許多研究,共同說明了人工智能是如何改變材料科學研究的。隨著最近對問答數據集的關注,該團隊正在使人工智能模型更容易被更廣泛的社區使用,為人工智能工具鋪平道路,這些工具可以為實驗人員提供更精確和相關的支持。
Cole說:“也許一個團隊在凌晨3點在光源設施進行了一項激烈的實驗,發生了意想不到的事情。”“他們需要一個快速的答案,沒有時間篩選所有的科學文獻。如果他們有一個在相關材料上訓練過的特定領域的語言模型,他們可以提出問題來幫助解釋數據,調整設置,并使實驗保持正軌。”
![]()
最終,Cole認為這種方法可以幫助材料科學中的人工智能進一步普惠化。 “你不需要成為語言模型專家,”她說。 “你可以采用現成的語言模型,只需幾個GPU,甚至你自己的個人電腦,就可以針對你的特定材料領域對其進行微調。這更像是一種即插即用的方法,使使用人工智能的過程更加高效。”
通過在ALCF強大的超級計算機上進行繁重的工作,Cole的團隊正在推進更有針對性和用戶友好的人工智能工具的開發,幫助材料科學家跟上不斷增長的文獻量,設計更好的實驗,更快地發現。
與Ai時代前沿合作,將大門向更多普通用戶敞開!無論你是對新技術充滿好奇心的愛好者,還是希望提升自己技能的職場人士,這里都有適合你的課程和資源。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.