Nat Biomed Engine | 中科院趙屹/陳潤生開發(fā)能“進化”的AI數(shù)據(jù)科學(xué)家，生物醫(yī)學(xué)分析準確率達77%

2026-03-31 00:05:57　來源: BioPeers

浙江舉報

分享至

近年來，生物醫(yī)學(xué)領(lǐng)域正經(jīng)歷一場數(shù)據(jù)革命——從海量電子病歷、高分辨率病理影像，到基因組、轉(zhuǎn)錄組、蛋白質(zhì)組等多組學(xué)數(shù)據(jù)，科研人員面對的數(shù)據(jù)規(guī)模和復(fù)雜程度已遠超傳統(tǒng)分析手段的承載能力。然而，如何將這些多源異構(gòu)的數(shù)據(jù)轉(zhuǎn)化為可指導(dǎo)疾病機制研究和臨床決策的科學(xué)發(fā)現(xiàn)，依然是巨大挑戰(zhàn)。盡管已有Galaxy、Nextflow等工作流平臺幫助非計算背景的研究者搭建分析流程，但其依賴固定模板、缺乏自然語言交互、難以靈活擴展等問題，限制了更廣泛的應(yīng)用。在這樣的背景下，具備語言理解和自主推理能力的大語言模型智能體，被視為破解這一困局的潛在突破口。

2026年3月30日，中國科學(xué)院計算技術(shù)研究所趙屹/陳潤生團隊聯(lián)合澳門科技大學(xué)張康團隊等多位合作者在《Nature Biomedical Engineering》上發(fā)表題為《Empowering AI data scientists using a multi-agent LLM framework with self-evolving capabilities for autonomous, tool-aware biomedical data analyses》的研究論文，開發(fā)了名為BioMedAgent的多智能體LLM框架。該框架支持自然語言輸入，能夠自主規(guī)劃、編寫和執(zhí)行生物醫(yī)學(xué)數(shù)據(jù)分析流程，并具備自我進化能力，在涵蓋327項任務(wù)的評測基準上取得了77%的整體成功率。

研究團隊首先構(gòu)建了包含327個生物醫(yī)學(xué)數(shù)據(jù)分析問題的評測基準BioMed-AQA，涵蓋組學(xué)分析、精準醫(yī)學(xué)支持、機器學(xué)習(xí)、統(tǒng)計分析和數(shù)據(jù)可視化五大類別。每項任務(wù)均配有詳細執(zhí)行步驟與里程碑，用于系統(tǒng)評估智能體表現(xiàn)。BioMedAgent采用“規(guī)劃—編碼—執(zhí)行”三階段多智能體協(xié)作機制，并引入了交互探索與記憶檢索兩種核心算法。交互探索使多個智能體在執(zhí)行過程中可互相反饋、反復(fù)迭代，從而擴展解決方案空間；記憶檢索則通過記錄成功的工具組合、代碼實現(xiàn)與工作流程，在后續(xù)遇到相似問題時實現(xiàn)經(jīng)驗復(fù)用，使系統(tǒng)具備持續(xù)進化的能力。

在性能評估中，BioMedAgent在BioMed-AQA上取得了77%的整體成功率，其中組學(xué)分析任務(wù)成功率高達94%，機器學(xué)習(xí)任務(wù)為90%。相比之下，使用相同大模型基礎(chǔ)的ChatGPT-4omini和GPT Function Call等對比方法成功率分別為39%和33%，即使更強的ChatGPT-4o也僅達到46%。進一步分析顯示，BioMedAgent成功整合了67種專業(yè)生物信息學(xué)工具，在需要工具調(diào)用的任務(wù)中成功率顯著提升。同時，系統(tǒng)對用戶不同表述方式也展現(xiàn)出良好魯棒性，三位醫(yī)學(xué)專家對同一任務(wù)進行語義改寫后，系統(tǒng)表現(xiàn)與原始基準無顯著差異。

交互探索算法對系統(tǒng)性能的貢獻尤為突出。引入該算法后，BioMedAgent的平均成功率從28%提升至52%，其中組學(xué)分析從34%升至66%，統(tǒng)計分析從3%躍升至43%。隨著交互輪次增加，成功率持續(xù)提高，總探索次數(shù)從916次增長至2696次，約60.8%此前失敗的任務(wù)在交互探索后得以成功執(zhí)行。

記憶檢索算法則為系統(tǒng)提供了持續(xù)進化的能力。研究團隊設(shè)計了兩種記憶更新策略：連續(xù)記憶積累保留所有成功記錄，迭代記憶遺忘則選擇性保留更優(yōu)方案。經(jīng)過三輪迭代學(xué)習(xí)，系統(tǒng)整體成功率從52%上升至77%，組學(xué)分析任務(wù)從66%提升至94%，機器學(xué)習(xí)任務(wù)從63%增至90%。即便將30%的問題作為“未見過”的測試集，系統(tǒng)在僅使用“已見過”問題學(xué)習(xí)后，其在“未見過”問題上的表現(xiàn)仍從52%顯著提升至69%，證明了記憶機制的泛化能力。

在外部公開基準BixBench的評測中，BioMedAgent同樣表現(xiàn)出色，在開放性問題上的準確率為49%，顯著優(yōu)于該基準提供的基線智能體的37%。這一結(jié)果驗證了該系統(tǒng)在未預(yù)先整合特定工具的情況下，仍具備較強的跨場景適應(yīng)能力。

為檢驗其在真實科研任務(wù)中的實用性，研究團隊將BioMedAgent應(yīng)用于三項具體研究：非小細胞肺癌的跨組學(xué)分析、基于循環(huán)腫瘤DNA的癌癥相關(guān)靜脈血栓栓塞預(yù)測模型構(gòu)建，以及病理圖像細胞分割。在跨組學(xué)分析中，系統(tǒng)自主完成從RNA-seq和單細胞RNA-seq數(shù)據(jù)預(yù)處理、差異表達基因鑒定到細胞類型特異性基因篩選的全流程，識別出ABCC3、SERINC2和SEZ6L2等與肺癌相關(guān)的關(guān)鍵基因。在機器學(xué)習(xí)建模任務(wù)中，系統(tǒng)復(fù)現(xiàn)了《Nature Medicine》上一項基于液體活檢的血栓風險預(yù)測研究，自動完成模型訓(xùn)練、評估與對比，得出與原文一致的結(jié)論，證實液體活檢模型預(yù)測效能顯著優(yōu)于傳統(tǒng)Khorana評分。在病理圖像分割中，系統(tǒng)整合了分辨率增強算法，使細胞分割的Dice系數(shù)平均提升0.86%，剩余誤差縮小29.9%。

BioMedAgent的開源代碼、評測基準及交互界面均已公開，支持本地部署并可調(diào)用GPT系列、DeepSeek、Qwen等多種大模型，為生物醫(yī)學(xué)研究者提供了一種無需專業(yè)計算背景即可開展復(fù)雜數(shù)據(jù)分析的新工具。

READING

BioPeers

歡迎關(guān)注本公眾號，所有內(nèi)容歡迎點贊，推薦??，評論，轉(zhuǎn)發(fā)~

如有錯誤、遺漏、侵權(quán)或商務(wù)合作請私信小編~~

歡迎大家投稿課題組研究進展、招聘及招生宣傳~

所有文章只為科普、科研服務(wù)，無商業(yè)目的~

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.