近年來,生物醫(yī)學(xué)領(lǐng)域正經(jīng)歷一場數(shù)據(jù)革命——從海量電子病歷、高分辨率病理影像,到基因組、轉(zhuǎn)錄組、蛋白質(zhì)組等多組學(xué)數(shù)據(jù),科研人員面對的數(shù)據(jù)規(guī)模和復(fù)雜程度已遠超傳統(tǒng)分析手段的承載能力。然而,如何將這些多源異構(gòu)的數(shù)據(jù)轉(zhuǎn)化為可指導(dǎo)疾病機制研究和臨床決策的科學(xué)發(fā)現(xiàn),依然是巨大挑戰(zhàn)。盡管已有Galaxy、Nextflow等工作流平臺幫助非計算背景的研究者搭建分析流程,但其依賴固定模板、缺乏自然語言交互、難以靈活擴展等問題,限制了更廣泛的應(yīng)用。在這樣的背景下,具備語言理解和自主推理能力的大語言模型智能體,被視為破解這一困局的潛在突破口。
2026年3月30日,中國科學(xué)院計算技術(shù)研究所趙屹/陳潤生團隊聯(lián)合澳門科技大學(xué)張康團隊等多位合作者在《Nature Biomedical Engineering》上發(fā)表題為《Empowering AI data scientists using a multi-agent LLM framework with self-evolving capabilities for autonomous, tool-aware biomedical data analyses》的研究論文,開發(fā)了名為BioMedAgent的多智能體LLM框架。該框架支持自然語言輸入,能夠自主規(guī)劃、編寫和執(zhí)行生物醫(yī)學(xué)數(shù)據(jù)分析流程,并具備自我進化能力,在涵蓋327項任務(wù)的評測基準上取得了77%的整體成功率。
![]()
研究團隊首先構(gòu)建了包含327個生物醫(yī)學(xué)數(shù)據(jù)分析問題的評測基準BioMed-AQA,涵蓋組學(xué)分析、精準醫(yī)學(xué)支持、機器學(xué)習(xí)、統(tǒng)計分析和數(shù)據(jù)可視化五大類別。每項任務(wù)均配有詳細執(zhí)行步驟與里程碑,用于系統(tǒng)評估智能體表現(xiàn)。BioMedAgent采用“規(guī)劃—編碼—執(zhí)行”三階段多智能體協(xié)作機制,并引入了交互探索與記憶檢索兩種核心算法。交互探索使多個智能體在執(zhí)行過程中可互相反饋、反復(fù)迭代,從而擴展解決方案空間;記憶檢索則通過記錄成功的工具組合、代碼實現(xiàn)與工作流程,在后續(xù)遇到相似問題時實現(xiàn)經(jīng)驗復(fù)用,使系統(tǒng)具備持續(xù)進化的能力。
在性能評估中,BioMedAgent在BioMed-AQA上取得了77%的整體成功率,其中組學(xué)分析任務(wù)成功率高達94%,機器學(xué)習(xí)任務(wù)為90%。相比之下,使用相同大模型基礎(chǔ)的ChatGPT-4omini和GPT Function Call等對比方法成功率分別為39%和33%,即使更強的ChatGPT-4o也僅達到46%。進一步分析顯示,BioMedAgent成功整合了67種專業(yè)生物信息學(xué)工具,在需要工具調(diào)用的任務(wù)中成功率顯著提升。同時,系統(tǒng)對用戶不同表述方式也展現(xiàn)出良好魯棒性,三位醫(yī)學(xué)專家對同一任務(wù)進行語義改寫后,系統(tǒng)表現(xiàn)與原始基準無顯著差異。
交互探索算法對系統(tǒng)性能的貢獻尤為突出。引入該算法后,BioMedAgent的平均成功率從28%提升至52%,其中組學(xué)分析從34%升至66%,統(tǒng)計分析從3%躍升至43%。隨著交互輪次增加,成功率持續(xù)提高,總探索次數(shù)從916次增長至2696次,約60.8%此前失敗的任務(wù)在交互探索后得以成功執(zhí)行。
記憶檢索算法則為系統(tǒng)提供了持續(xù)進化的能力。研究團隊設(shè)計了兩種記憶更新策略:連續(xù)記憶積累保留所有成功記錄,迭代記憶遺忘則選擇性保留更優(yōu)方案。經(jīng)過三輪迭代學(xué)習(xí),系統(tǒng)整體成功率從52%上升至77%,組學(xué)分析任務(wù)從66%提升至94%,機器學(xué)習(xí)任務(wù)從63%增至90%。即便將30%的問題作為“未見過”的測試集,系統(tǒng)在僅使用“已見過”問題學(xué)習(xí)后,其在“未見過”問題上的表現(xiàn)仍從52%顯著提升至69%,證明了記憶機制的泛化能力。
![]()
在外部公開基準BixBench的評測中,BioMedAgent同樣表現(xiàn)出色,在開放性問題上的準確率為49%,顯著優(yōu)于該基準提供的基線智能體的37%。這一結(jié)果驗證了該系統(tǒng)在未預(yù)先整合特定工具的情況下,仍具備較強的跨場景適應(yīng)能力。
為檢驗其在真實科研任務(wù)中的實用性,研究團隊將BioMedAgent應(yīng)用于三項具體研究:非小細胞肺癌的跨組學(xué)分析、基于循環(huán)腫瘤DNA的癌癥相關(guān)靜脈血栓栓塞預(yù)測模型構(gòu)建,以及病理圖像細胞分割。在跨組學(xué)分析中,系統(tǒng)自主完成從RNA-seq和單細胞RNA-seq數(shù)據(jù)預(yù)處理、差異表達基因鑒定到細胞類型特異性基因篩選的全流程,識別出ABCC3、SERINC2和SEZ6L2等與肺癌相關(guān)的關(guān)鍵基因。在機器學(xué)習(xí)建模任務(wù)中,系統(tǒng)復(fù)現(xiàn)了《Nature Medicine》上一項基于液體活檢的血栓風險預(yù)測研究,自動完成模型訓(xùn)練、評估與對比,得出與原文一致的結(jié)論,證實液體活檢模型預(yù)測效能顯著優(yōu)于傳統(tǒng)Khorana評分。在病理圖像分割中,系統(tǒng)整合了分辨率增強算法,使細胞分割的Dice系數(shù)平均提升0.86%,剩余誤差縮小29.9%。
BioMedAgent的開源代碼、評測基準及交互界面均已公開,支持本地部署并可調(diào)用GPT系列、DeepSeek、Qwen等多種大模型,為生物醫(yī)學(xué)研究者提供了一種無需專業(yè)計算背景即可開展復(fù)雜數(shù)據(jù)分析的新工具。
READING
BioPeers
歡迎關(guān)注本公眾號,所有內(nèi)容歡迎點贊,推薦??,評論,轉(zhuǎn)發(fā)~
如有錯誤、遺漏、侵權(quán)或商務(wù)合作請私信小編~~
歡迎大家投稿課題組 研究進展 、招聘及招生宣傳~
所有文章只為科普、科研服務(wù),無商業(yè)目的~
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.