一個差點退學的人,四個月后成了阿爾茨海默病預測項目的負責人。這不是勵志故事,而是一次關于「AI該怎么用」的殘酷教學。
Arya Shobeire在2025年底的處境很尷尬:屏幕上是GFAP、NfL、pMCI、sMCI、tau-PET、VMHC——一串他完全不認識的縮寫。海馬體萎縮?腦脊液動力學?他感覺自己又走錯了房間,就像當年差點從大學退學時一樣。
但這一次他手里有東西:不是某個聊天機器人,而是一套他自己搭出來的架構。
從「算命先生」到「工廠流水線」
大多數人用AI的方式是提問-得到答案-結束。Shobeire發現這像個彩票系統:單次大語言模型(LLM,Large Language Model,一種基于深度學習的文本生成技術)的回復質量不可預測,你永遠不知道下一張刮出來是什么。
他換了個思路。AI + 技能模塊 + 智能體(Agent,能夠自主執行任務的AI程序單元) + 規格文檔 + MCP服務器(Model Context Protocol,一種讓AI系統連接外部工具和數據的開放協議)。
五層結構疊在一起,單點故障變成流水線冗余。
一個智能體可能幻覺,但三個互相校驗的智能體同時出錯概率驟降;單次提示詞(Prompt,輸入給AI的指令文本)像擲骰子,但帶規格約束的多步流程像數控機床。Shobeire的比喻很直接:前者是算命攤,后者是富士康。
這個認知花了很久才沉淀。他踩過的坑包括:智能體循環調用導致無限遞歸、工具描述寫得太模糊讓AI選錯函數、MCP服務器權限沒隔離差點刪了測試數據。每個錯誤都在教他同一件事——架構不是錦上添花,是生死線。
先當2010年的書呆子,再當2025年的工程師
動手寫代碼之前,Shobeire強迫自己干了件「反潮流」的事:手動讀論文。五十篇,從分子生物學基礎開始。
神經元怎么工作。灰質和白質的區別為什么重要。腦脊液(CSF,Cerebrospinal Fluid)的流動路徑。MRI結構成像、彌散成像、功能成像、PET掃描、腦電圖(EEG,Electroencephalography)、視網膜成像——每種技術的測量對象、臨床閾值、以及「機器容易檢測」和「醫生真正關心」之間的鴻溝。
這段苦工后來被證明是架構設計的地基。他發現阿爾茨海默病研究領域有個結構性痛點:數據孤島極其嚴重。
ADNI(Alzheimer's Disease Neuroimaging Initiative,阿爾茨海默病神經影像學倡議)有影像數據,NACC(National Alzheimer's Coordinating Center,國家阿爾茨海默病協調中心)有臨床評估,OASIS(Open Access Series of Imaging Studies,開放獲取影像研究系列)有縱向追蹤,但三者之間的患者ID映射是人工維護的Excel表格。文獻里提到的某個生物標志物閾值,原始論文和后續驗證研究的數值可能相差30%,因為隊列(Cohort,具有共同特征的研究對象群體)年齡結構不同。
沒有這些背景知識,他設計的智能體會像盲人摸象——每個Agent都覺得自己摸到了全貌。
多Agent系統的「分工-校驗」機制
Shobeire最終搭建的平臺叫Mesvak(波斯語「語言」之意),核心設計是三層Agent協作。
第一層「勘探Agent」負責文獻檢索和知識圖譜構建。它不直接回答問題,而是輸出「關于tau蛋白磷酸化位點與認知衰退的相關性,目前有7項縱向研究,其中4項支持閾值X,3項支持閾值Y,分歧主要來自樣本采集時間窗定義」。這種帶不確定度的輸出,比直接給答案有用得多。
第二層「合成Agent」接收勘探結果,生成可驗證的假設。它的輸出必須符合預設規格:必須包含可測量的因變量、必須指出潛在混雜因素、必須列出驗證所需的最小數據集。規格文檔(Specs)在這里充當硬約束——不符合格式的輸出會被自動駁回,重新生成。
第三層「校驗Agent」最狠。它專門找前兩層的漏洞:統計方法是否匹配數據類型?樣本量是否支撐效應量估計?某個「顯著」結果是否在多重比較校正后仍然成立?
三層之間通過MCP服務器與外部工具交互:PubMed API查文獻、R環境跑統計、內部數據庫拉患者記錄。每個工具調用都有日志,每個決策節點都有可追溯的上下文。這是Shobeire強調的「可觀測性」(Observability)——不是事后看日志,而是系統運行時的狀態實時暴露。
從「能跑」到「敢用」:四個月的真實曲線
第一個月,平臺只能處理單篇論文的摘要提取,錯誤率約15%。第二個月加入交叉驗證邏輯,錯誤率降到7%,但處理一篇文獻需要20分鐘。第三個月重構了Agent間的通信協議,引入并行處理,速度提升4倍。第四個月,系統開始處理真實的多模態數據:結構MRI、PET淀粉樣蛋白成像、腦脊液生物標志物、認知評分量表——四項數據源同時輸入,輸出風險分層預測。
這個速度在學術界引發了一些復雜反應。有研究者質疑:四個月走完了傳統團隊兩年的路,質量如何保證?Shobeire的回應很直接:平臺的所有輸出都附帶置信度分數和溯源鏈,人工可以隨時介入驗證。相反,傳統流程里的大量「隱性知識」——某個博士后記得某篇2018年論文的樣本偏差——恰恰是難以審計的黑箱。
他現在的身份是某生物科技公司AI研究負責人,頭銜來得太快,以至于他自己還在適應。團隊里既有計算生物學家,也有臨床醫生,溝通成本比寫代碼更高。但他發現之前讀那五十篇論文的經歷意外有用:能聽懂醫生說的「這個指標在臨床上不可靠」到底是指靈敏度問題還是特異性問題,能判斷某個數據請求是合理的研究需求還是官僚式防御。
Mesvak目前處理過約1200例患者數據,預測模型在內部驗證集上的AUC(Area Under Curve,衡量分類模型性能的指標,1為完美)達到0.84。這個數字不算驚艷——頂級學術團隊的公開結果通常在0.87-0.89——但考慮到數據異質性和標注噪聲,Shobeire認為架構的魯棒性比單點性能更重要。
他最近在做的事是開放部分模塊給合作醫院測試。不是部署完整系統,而是讓臨床研究者用「勘探Agent」快速掃描某個細分領域的文獻爭議。反饋很分裂:年輕住院醫覺得省了大量時間,資深主任醫師覺得「少了自己翻論文時的意外發現」。
這種張力或許正是實時研究時代的核心矛盾:當AI把信息檢索壓縮到分鐘級,人類專家的「直覺」和「經驗」還剩多少不可替代性?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.