![]()
導語
科學發現的軌跡,如同交織在人類歷史中的璀璨織錦,經歷了一系列范式的演進。早期的探索,主要依賴于由直覺、反復試驗或機緣巧合驅動的經驗發現。隨后,以牛頓力學為代表的理論框架,為我們洞察自然現象的基本原理提供了基石。高性能計算的崛起,則開啟了跨學科、多尺度建模的計算科學時代。而這些過程產生的海量數據,又將我們推向了以揭示高維數據隱藏關系為核心的數據科學范式。
如今,我們正迎來一個可能的新范式——智能體科學(Agentic Science)。在這個范式中,AI 智能體能夠(半)自主地進行探索和學習,解鎖前所未有的科學發現路徑。
關鍵詞:AI智能體,自動科學發現
曾利丨作者
周莉丨審校
![]()
論文題目:Towards agentic science for advancing scientific discovery 論文鏈接:https://www.nature.com/articles/s42256-025-01110-x 發表時間:2025年9月10日 論文來源:Nature Machine Intelligence
智能體AI的崛起:從專家系統到通用大模型
從歷史上看,人工智能智能體的概念可以追溯到AI的黎明時代。1965年,DENDRAL系統應用基于規則的推理來分析化學數據、推斷分子結構,成為最早的領域專用AI系統之一 [1]。1966年,ELIZA通過模擬心理治療師的文本對話,展示了自然語言交互的潛力 [2]。此后數十年,專家系統、概率模型和機器學習技術不斷拓展著AI智能體的能力邊界。
2010年代深度學習的革命性突破,使系統能夠大規模處理非結構化數據,學習復雜模式。而近期,大語言模型(LLM)的飛速發展,極大地拓寬了智能體AI的可及性、適應性和科學相關性,為其跨研究領域的整合開辟了新紀元。
核心能力:AI智能體如何思考與行動?
AI智能體的一個決定性特征,是其獨立的能動性(Agency)[3]。這種靈活性由作為其核心的多模態大語言模型所驅動,使其能夠跨越文本、圖像、音頻、視頻乃至化學式、數學表達式等結構化數據進行高級推理。
通過主動學習和與外部工具(如軟件、自動化實驗室硬件)的無縫集成,AI智能體可以直接與物理世界和數字資源互動,收集新數據。最新的進展,如“模型上下文協議”(Model Context Protocol)和“Agent2Agent”通信協議,正在為構建由多個自主智能體協同工作的分布式系統鋪平道路。
這些發展共同賦予了AI智能體解釋觀察、理解用戶指令、制定行動計劃并實時調整策略的能力。其多步驟的戰略思維使其能夠預見行動后果,平衡短期與長期目標。憑借其遠見卓識、模塊化架構和強大的工具集成能力,智能體AI正引領科學研究從大規模數據分析,邁向自主實驗設計的新時代。
這一變革的基礎,是旨在自動化整個科研工作流程的AI智能體框架——從假設生成、實驗規劃、數據分析到最終的成果發表。
實踐前沿:當AI走進實驗室
Sakana AI推出的
AI Scientist等新興系統,已在嘗試自主管理整個研究周期,包括構思、設計、分析乃至稿件撰寫和審閱,力求最大限度地減少人工干預 [4]。
![]()
圖1:Sakana AI所設計的人工智能科學家系統說明。人工智能科學家首先集思廣益一組想法,然后評估它們的新穎性。接下來,它編輯由自動代碼生成的最新進展提供支持的代碼庫,以實現新穎的算法。然后,科學家進行實驗以收集由數字數據和視覺摘要組成的結果。它制作了一份科學報告,解釋結果并將其置于背景中。最后,人工智能科學家根據頂級機器學習會議標準生成自動同行評審。該審查有助于完善當前項目,并為后代提供開放式構思的信息。
FutureHouse平臺則展示了如何將多個專門的AI智能體(如文獻分析師、新穎性檢測器、實驗規劃師)組合成一個強大的化學研究流水線 [5]。
![]()
圖2:FutureHouse 平臺提出的多智能體科學發現體系的四層架構。該圖展示了人類科學家與人工智能系統在科研過程中的協同關系:最上層由人類科學家提出核心科學問題與探索目標(,作為整個系統的研究驅動力;第二層的 AI 科學家通過構建世界模型、生成假設并開展實驗,形成自動化的科學推理與驗證循環;第三層的 AI 科研助手由針對特定學科流程的智能體組成,如可執行文獻檢索、蛋白功能注釋、新蛋白設計、單細胞測序分析等任務,為 AI 科學家的推理提供數據與知識支持;最底層的 AI 工具層包括預測模型(如 AlphaFold)、API 接口與實驗室自動化實驗系統,為上層智能體提供算法支撐與實驗驗證。整個架構體現了從工具到智能體再到智能科學家的遞進式協作,旨在推動復雜科研任務的智能化與系統化。
專注于材料科學的
LLaMat模型,在生成化學上有效的晶體結構和從文獻中提取技術數據方面,展現了前所未有的能力 [6]。
![]()
圖3:LLaMat 在材料科學領域的開發流程與功能示意。該圖展示了 LLaMat 的兩階段開發過程:首先進行基于材料科學語料的持續預訓練(上方),隨后通過兩條專門的指令微調路徑進行優化(左右分支)。預訓練數據主要來源于學術論文、晶體結構文件以及通用文本語料。兩條微調路徑分別產出兩個模型:LLaMat-Chat——可輔助材料研究、執行結構化信息抽取與材料語言處理任務;以及LLaMat-CIF——專注于晶體結構的分析與生成。圖中示例展示了模型在處理不同類型材料科學問題與任務時的表現。
這些新興框架,正推動我們朝著一個可擴展、透明和協作的智能體生態系統邁進,以加速科學發現。
跨學科的差異:并非所有領域都已準備就緒
重要的是要認識到,智能體AI的影響力因學科而異。在化學和材料科學這類問題結構化、數據豐富且自動化程度高的領域,智能體方法已帶來切實的好處。
在化學領域,
Coscientist系統利用LLM解釋自然語言指令,自主設計實驗并通過API操作云端實驗室設備 [7]。
![]()
圖 4:AI co-scientist的多智能體架構設計。該系統能夠接收研究者以自然語言形式輸入的科研目標,并將其解析為可執行的研究計劃配置。隨后,計劃被發送至監督智能體(Supervisor agent),由其評估整體方案,分配各專業智能體的權重與資源,并根據權重優先級將其排入任務隊列。各工作進程依次執行隊列中的智能體任務,系統最終整合所有結果,生成包含研究概述、詳細假設與方案建議的輸出,為科研人員提供支持。在圖中,“AI 共研智能體的專用智能體”部分中的紅色方框表示具有不同邏輯與功能的獨立智能體,藍色方框表示科研人員參與與反饋的環節;深灰色箭頭表示信息在系統中的傳遞路徑,而紅色箭頭則代表各專用智能體之間的信息反饋循環。
在材料科學領域,
A-Lab作為一個全自主固態合成實驗室,集成了機器人、機器學習和從頭計算。雖然它也使用LLM預測合成方案,但尚未形成閉環的智能體行為 [8]。相比之下,采用檢索增強生成(RAG)的LLaMP框架,則通過分層推理-行動智能體,實現了真正意義上的高保真知識動態合成 [9]。
![]()
圖5:LLaMP 系統中的分層 ReAct 智能體規劃架構圖。該架構通過標準化的 LangChain 接口部署了兩層智能體:上層為監督型 ReAct 智能體,下層為多個助理型 ReAct 智能體。監督智能體負責統籌與調度底層助理智能體的工作,每個助理智能體都配備有獨立的工具集和數據/文檔存儲,以完成不同類型的科研任務,包括高保真材料信息檢索、原子級建模與仿真、以及文獻搜索等。
然而,在社會科學等統一數據集稀缺、研究問題定義模糊的領域,AI仍難以有效施展。同樣,在臨床診斷或動物行為研究等需要細致人類判斷和倫理敏感性的任務中,AI智能體必須服從于人類專家的智慧,其邊界條件明確。
核心挑戰(一):幻覺與事實的邊界
AI智能體在科學應用中的一個關鍵挑戰,是LLM固有的“幻覺”傾向——即產生聽起來似是而非但無法驗證或不正確的信息。盡管這種推斷偶爾可能觸及未知的創新領域,但它也極有可能引入錯誤,破壞科學的嚴謹性。
為了管理科學推理的復雜性,AI智能體必須植根于領域知識。通過整合知識圖譜(如化學反應網絡、基因本體庫)等結構化資源,智能體可以交叉驗證其輸出,減少事實錯誤。
然而,“幻覺”的形式可能更為微妙。一種被稱為“草率”(slopsquatting)的現象——即LLM“發明”并引用不存在的軟件包或文獻——凸顯了對缺乏知識基礎的輸出產生無端信心的巨大風險。在需要持續推理和上下文感知的長期、多步驟任務中,這一問題尤為突出。METR等最新基準測試表明,即使是先進的LLM智能體也難以應對此類任務,往往會隨著時間推移累積并放大微小錯誤。這凸顯了整合領域知識、外部驗證和人類監督對于確保AI智能體安全可靠部署的重要性 [10]。
核心挑戰(二):如何評估一個“AI科學家”?
在提高事實可靠性的同時,另一個根本性挑戰在于如何評估智能體AI的性能。傳統的機器學習指標(如準確率、精確度)顯然不適用。對于一個交互式、多步驟、目標驅動的“AI科學家”,我們該如何衡量其優劣?
最近,學界提出了一些新指標,如pass@k(k次嘗試中至少成功一次)、步數、推理圖中的最短路徑距離等 [11]。針對特定領域的基準測試也在涌現,例如,自主顯微鏡的AFMBench基準就在真實實驗室任務中測試了LLM驅動的智能體,揭示了其在復雜科學工作流程中的關鍵故障模式 [12]。
然而,這些指標和基準遠未標準化,且缺乏跨領域的普適性。在材料科學等領域,工作流程的多樣性、實驗結果的變異性以及高度依賴上下文的成功定義,都使一致性評估變得異常困難。最終,對這些系統的真正考驗,或許不僅在于形式化的指標,更在于它們是否能在實際科研中提供可衡量的效用。
核心挑戰(三):提示詞的“蝴蝶效應”
與評估挑戰緊密相關的,是提示詞脆弱性(Prompt Fragility)問題:智能體系統對自然語言輸入的細微變化或歧義極為敏感。就像動力系統中的初始條件,一個措辭不當或含糊的提示,可能引導模型走向完全不同甚至錯誤的路徑。
這種“脆弱性”在科學背景下尤其危險。為了解決這個問題,智能體框架必須內置驗證機制和安全聯鎖。例如,在關鍵決策點,中間輸出應由人類專家或專門的“驗證智能體”進行審查。一旦檢測到不一致或不合理的行動(如提議使用不存在的化合物或違反安全規程),系統應能自動暫停或修正計劃。沒有這樣的保障,多步驟的自主性就有可能將小錯誤累積成重大的科學脫軌。
解決這些技術障礙需要多管齊下的方法:通信協議和數據格式的標準化、可擴展的計算資源,以及遷移學習、自監督學習和強化學習等先進學習方法的集成。
超越技術:重塑科研的嚴謹性與倫理
除了解決技術難題,AI智能體還有望從根本上提升科學研究的嚴謹性和可復現性。通過系統性地分析文獻、識別矛盾和被忽視的缺口,AI智能體能幫助研究人員更深入、更一致地驗證假說。
為了實現這一目標,涉及智能體AI的科學報告必須包含詳盡的透明文檔(如所用模型版本、代表性提示詞和智能體對話),以便他人復現。期刊和會議也應建立類似實驗方案的標準化報告指南。
與此同時,倫理考量是部署智能體AI的核心。我們必須警惕算法偏見(例如,AI可能傾向于強化主流趨勢而忽視非傳統路徑),并確保決策過程的透明度。在整個人工智能管道中設置制衡機制,并始終保持“人類在環”(Human-in-the-loop),讓人類科學家提供戰略監督和批判性審查,是至關重要的。
結語:邁向人機協同的未來
負責任地整合AI智能體,需要一種整體性方法,確保這些技術在成為科學發現催化劑的同時,始終與嚴謹的科學精神和社會價值觀保持一致。一個由AI處理高通量任務、人類提供戰略監督和倫理把關的人機協同新范式,正向我們走來。它不僅將加速科學的步伐,更有可能提升科學探究的標準,培育一個更加透明和值得信賴的科研文化。
參考文獻
[1] Lindsay, R. K., Buchanan, B. G., Feigenbaum, E. A. & Lederberg, J. Artif. Intell.61, 209–261 (1993).
[2] Weizenbaum, J. Commun. ACM9, 36–45 (1966).
[3] Masterman, T., Besen, S., Sawtell, M. & Chao A. Preprint at https://doi.org/10.48550/arxiv.2404.11584 (2024).
[4] Lu, C. et al. Preprint at https://doi.org/10.48550/arxiv.2408.06292 (2024).
[5] Narayanan, S. M. et al. Preprint at https://doi.org/10.48550/arxiv.2506.17238 (2025).
[6] Mishra, V. et al. Preprint at https://doi.org/10.48550/arxiv.2412.09560 (2024).
[7] Boiko, D. A., MacKnight, R., Kline, B. & Gomes, G. Nature624, 570–578 (2023).
[8] Szymanski, N. J. et al. Nature624, 86–91 (2023).
[9] Chiang, Y., Hsieh, E. Chou, C.-H. & Riebesell, J. Preprint at https://doi.org/10.48550/arxiv.2401.17244 (2024).
[10] Kwa, T. et al. Preprint at https://doi.org/10.48550/arxiv.2503.14499 (2025).
[11] Yao, S., Shinn, N., Razavi, P. & Narasimhan K. Preprint at https://doi.org/10.48550/arxiv.2406.12045 (2024).
[12] Krishnan, N. M. A. et al. Preprint at https://doi.org/10.48550/arxiv.2501.10385 (2024).
「大模型時代下的Agent建模與仿真」讀書會
集智俱樂部聯合山東工商學院副教授高德華、天津大學教授薛霄、北京師范大學教授張江、國防科技大學博士研究生曾利共同發起。讀書會自2025年7月8日開始,每周二晚上7:30-9:30進行,現讀書會已結束,支持查看課程回放。掃碼加入Agent建模與仿真的前沿探索之旅,一起共學、共創、共建、共享「大模型時代下的Agent建模與仿真」社區,共同暢想大模型時代人工社會的未來圖景!
核心問題
Agent建模與仿真是什么,核心技術發生了怎樣的演變?
大模型時代,Agent建模與仿真會給復雜系統理論帶來哪些突破?
大模型如何賦能Agent實現自主思考與動態適應?
大模型驅動的Agent交互會涌現出什么新型的社會現象?
Agent建模與仿真如何改變金融、心理、管理、軍事等領域的研究范式?
你將收獲
梳理Agent建模與仿真的歷史發展脈絡與方法論;
掌握一套理解、分析、控制、預測復雜系統的計算實驗框架;
掌握基于多主體強化學習的復雜系統優化方法;
領略領域前沿學者的研究體系與科研路徑。
詳情請見:
1.
2.
3.
4.
5.
6.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.