網易首頁 > 網易號 > 正文申請入駐

4個月從掛科邊緣到帶隊研發：一個AI架構師怎么"誤闖"了生物實驗

2026-04-05 21:04:28　來源: 固件更新中

北京舉報

分享至

一個差點退學的人，四個月后成了阿爾茨海默病預測項目的負責人。這不是勵志故事，而是一次關于「AI該怎么用」的殘酷教學。

Arya Shobeire在2025年底的處境很尷尬：屏幕上是GFAP、NfL、pMCI、sMCI、tau-PET、VMHC——一串他完全不認識的縮寫。海馬體萎縮？腦脊液動力學？他感覺自己又走錯了房間，就像當年差點從大學退學時一樣。

但這一次他手里有東西：不是某個聊天機器人，而是一套他自己搭出來的架構。

從「算命先生」到「工廠流水線」

大多數人用AI的方式是提問-得到答案-結束。Shobeire發現這像個彩票系統：單次大語言模型（LLM，Large Language Model，一種基于深度學習的文本生成技術）的回復質量不可預測，你永遠不知道下一張刮出來是什么。

他換了個思路。AI + 技能模塊 + 智能體（Agent，能夠自主執行任務的AI程序單元） + 規格文檔 + MCP服務器（Model Context Protocol，一種讓AI系統連接外部工具和數據的開放協議）。

五層結構疊在一起，單點故障變成流水線冗余。

一個智能體可能幻覺，但三個互相校驗的智能體同時出錯概率驟降；單次提示詞（Prompt，輸入給AI的指令文本）像擲骰子，但帶規格約束的多步流程像數控機床。Shobeire的比喻很直接：前者是算命攤，后者是富士康。

這個認知花了很久才沉淀。他踩過的坑包括：智能體循環調用導致無限遞歸、工具描述寫得太模糊讓AI選錯函數、MCP服務器權限沒隔離差點刪了測試數據。每個錯誤都在教他同一件事——架構不是錦上添花，是生死線。

先當2010年的書呆子，再當2025年的工程師

動手寫代碼之前，Shobeire強迫自己干了件「反潮流」的事：手動讀論文。五十篇，從分子生物學基礎開始。

神經元怎么工作。灰質和白質的區別為什么重要。腦脊液（CSF，Cerebrospinal Fluid）的流動路徑。MRI結構成像、彌散成像、功能成像、PET掃描、腦電圖（EEG，Electroencephalography）、視網膜成像——每種技術的測量對象、臨床閾值、以及「機器容易檢測」和「醫生真正關心」之間的鴻溝。

這段苦工后來被證明是架構設計的地基。他發現阿爾茨海默病研究領域有個結構性痛點：數據孤島極其嚴重。

ADNI（Alzheimer's Disease Neuroimaging Initiative，阿爾茨海默病神經影像學倡議）有影像數據，NACC（National Alzheimer's Coordinating Center，國家阿爾茨海默病協調中心）有臨床評估，OASIS（Open Access Series of Imaging Studies，開放獲取影像研究系列）有縱向追蹤，但三者之間的患者ID映射是人工維護的Excel表格。文獻里提到的某個生物標志物閾值，原始論文和后續驗證研究的數值可能相差30%，因為隊列（Cohort，具有共同特征的研究對象群體）年齡結構不同。

沒有這些背景知識，他設計的智能體會像盲人摸象——每個Agent都覺得自己摸到了全貌。

多Agent系統的「分工-校驗」機制

Shobeire最終搭建的平臺叫Mesvak（波斯語「語言」之意），核心設計是三層Agent協作。

第一層「勘探Agent」負責文獻檢索和知識圖譜構建。它不直接回答問題，而是輸出「關于tau蛋白磷酸化位點與認知衰退的相關性，目前有7項縱向研究，其中4項支持閾值X，3項支持閾值Y，分歧主要來自樣本采集時間窗定義」。這種帶不確定度的輸出，比直接給答案有用得多。

第二層「合成Agent」接收勘探結果，生成可驗證的假設。它的輸出必須符合預設規格：必須包含可測量的因變量、必須指出潛在混雜因素、必須列出驗證所需的最小數據集。規格文檔（Specs）在這里充當硬約束——不符合格式的輸出會被自動駁回，重新生成。

第三層「校驗Agent」最狠。它專門找前兩層的漏洞：統計方法是否匹配數據類型？樣本量是否支撐效應量估計？某個「顯著」結果是否在多重比較校正后仍然成立？

三層之間通過MCP服務器與外部工具交互：PubMed API查文獻、R環境跑統計、內部數據庫拉患者記錄。每個工具調用都有日志，每個決策節點都有可追溯的上下文。這是Shobeire強調的「可觀測性」（Observability）——不是事后看日志，而是系統運行時的狀態實時暴露。

從「能跑」到「敢用」：四個月的真實曲線

第一個月，平臺只能處理單篇論文的摘要提取，錯誤率約15%。第二個月加入交叉驗證邏輯，錯誤率降到7%，但處理一篇文獻需要20分鐘。第三個月重構了Agent間的通信協議，引入并行處理，速度提升4倍。第四個月，系統開始處理真實的多模態數據：結構MRI、PET淀粉樣蛋白成像、腦脊液生物標志物、認知評分量表——四項數據源同時輸入，輸出風險分層預測。

這個速度在學術界引發了一些復雜反應。有研究者質疑：四個月走完了傳統團隊兩年的路，質量如何保證？Shobeire的回應很直接：平臺的所有輸出都附帶置信度分數和溯源鏈，人工可以隨時介入驗證。相反，傳統流程里的大量「隱性知識」——某個博士后記得某篇2018年論文的樣本偏差——恰恰是難以審計的黑箱。

他現在的身份是某生物科技公司AI研究負責人，頭銜來得太快，以至于他自己還在適應。團隊里既有計算生物學家，也有臨床醫生，溝通成本比寫代碼更高。但他發現之前讀那五十篇論文的經歷意外有用：能聽懂醫生說的「這個指標在臨床上不可靠」到底是指靈敏度問題還是特異性問題，能判斷某個數據請求是合理的研究需求還是官僚式防御。

Mesvak目前處理過約1200例患者數據，預測模型在內部驗證集上的AUC（Area Under Curve，衡量分類模型性能的指標，1為完美）達到0.84。這個數字不算驚艷——頂級學術團隊的公開結果通常在0.87-0.89——但考慮到數據異質性和標注噪聲，Shobeire認為架構的魯棒性比單點性能更重要。

他最近在做的事是開放部分模塊給合作醫院測試。不是部署完整系統，而是讓臨床研究者用「勘探Agent」快速掃描某個細分領域的文獻爭議。反饋很分裂：年輕住院醫覺得省了大量時間，資深主任醫師覺得「少了自己翻論文時的意外發現」。

這種張力或許正是實時研究時代的核心矛盾：當AI把信息檢索壓縮到分鐘級，人類專家的「直覺」和「經驗」還剩多少不可替代性？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.