網易首頁 > 網易號 > 正文申請入駐

AI醫生終于有了硬標尺！螞蟻發布全球首個專病循證評測框架GAPS

2025-12-29 14:24:46　來源: 量子位

北京舉報

分享至

允中發自凹非寺
量子位 | 公眾號 QbitAI

螞蟻健康與北京大學人民醫院王俊院士團隊歷時6個多月，聯合十余位胸外科醫生共同打磨，發布了全球首個大模型專病循證能力的評測框架

GAPS（Grounding, Adequacy, Perturbation, Safety），及其配套評測集 GAPS-NSCLC-preview。

旨在解決現有醫療AI評測局限于考試式問答、缺乏臨床深度、完整性、魯棒性與安全性綜合評估的問題。

該評測集聚焦肺癌領域，包含92個問題、覆蓋1691個臨床要點，并配套全自動化的評測工具鏈，通過指南錨定、多智能體協同實現從問題生成、評分標準制定到多維度打分的端到端自動化。

目前，相關成果已應用于“螞蟻阿福”，論文《GAPS: A Clinically Grounded, Automated Benchmark for Evaluating AI Clinicians》、配套評測集GAPS-NSCLC-preview、自動化評測框架已全面公開。

這項研究客觀評價了大模型的臨床能力：當前主流醫療大模型雖已具備“醫學百科全書”般的知識廣度，但在臨床實踐中仍處于成長階段——

它們在系統掌握醫學知識方面表現卓越，但在應對真實臨床場景中的不確定性挑戰時，尚需進一步提升判斷力與可靠性。

權威引領：北大人民醫院院士團隊深度主導臨床標準構建

本項目由中國工程院院士、北京大學人民醫院院長王俊教授領銜的團隊全程主導，并與螞蟻團隊深度協作完成。

在GAPS構建過程中，院士團隊原創性地提出了GAPS評測的理論框架，并組織十余位胸外科醫生持續參與評測題庫構建、臨床金標準答案撰寫、模型輸出的專業審核與迭代優化，提供NSCLC（非小細胞肺癌）領域前沿臨床指南的權威解讀與循證醫學方法論指導，確保每一項指標都扎根真實臨床實踐，具備高度專業性與可信度。

螞蟻團隊則發揮大模型與工程化能力優勢，經過多輪高強度醫工協同與反復迭代，將專家腦海中的復雜“臨床金標準”精準沉淀為大模型可理解、可執行的結構化邏輯，實現GAPS的規?；?、自動化與可落地應用。

此次合作實現了“臨床專家定標準、AI 技術做轉化”的深度融合，突破了傳統醫療AI評測中專家淺層參與的局限，標志著頂尖臨床專家與AI技術團隊的深度協作，為醫療AI從“技術驅動”走向“臨床價值驅動”樹立了新的范式。

行業痛點：考得好，信不過

在和大模型討論醫療問題時，有時候回答得很好，有時候回答得很差，由于大模型的變化日新月異，醫生和患者都沒有辦法在短時間對大模型產生客觀評價，因此對大模型的信任就無從談起。

為了客觀評價大模型的能力，學界通常采用基準測試的方法。

然而，當前醫療AI的基準測試普遍缺乏對模型循證能力、可解釋性與安全性的系統評估。

長期以來，醫療AI的評估依賴MedQA、PubMedQA等“試卷型”基準，僅考察事實記憶能力；而HealthBench等基于人工評分細則（Rubric）的方法又受限于主觀性強、擴展性差。

這些方法無法反映真實診療場景：患者描述模糊、檢查結果矛盾、治療方案需權衡利弊……正如論文所強調：

真正的醫療能力不在于背誦事實，而在于管理不確定性。

尤其在肺癌這一全球致死率最高的癌癥領域，缺乏細粒度、專病化的評估工具，使得醫療機構和開發者難以客觀判斷醫療AI是否真正具備臨床可用性。

GAPS的誕生，正是為了填補這一關鍵空白。

破局之道：GAPS——從“考試機器”到“臨床醫生”的四維標尺

GAPS是一個基于循證醫學、全自動構建的AI臨床能力評測框架，首次將臨床勝任力解構為四個正交維度，并聚焦NSCLC（非小細胞肺癌）這一高難度專病場景進行系統驗證：

1、G（Grounding）認知深度：不止于“是什么”，更考驗“為什么”和“怎么辦”。

G1和G2：事實回憶與解釋（AI的舒適區）
G3：基于指南的循證決策（如NCCN推薦方案）
G4：推理性思維（Inferential Reasoning）——在證據沖突或缺失的“灰色地帶”做出合理判斷，這是當前所有模型的“死亡區”。

2、A（Adequacy）回答完備性：醫生的一句話可能關乎生死。GAPS引入三級評價：

A1（必須有）：核心診療建議
A2（應該有）：關鍵限定條件（如劑量、禁忌癥、監測指標）
A3（錦上添花）：患者教育、多學科協作建議等

缺少A2，再“正確”的建議也可能導致臨床誤用。

3、P（Perturbation）魯棒性：真實患者不會照著教科書說話。GAPS通過三類擾動測試模型抗干擾能力：

P1：語言噪音（口誤、方言）
P2：冗余信息（無關癥狀堆砌）
P3：對抗性前提（如誘導性錯誤假設）

實驗顯示，多數模型極易被誤導，甚至順從用戶的錯誤引導。

4、S（Safety）安全底線：醫療容不得“差不多”。GAPS 建立四級風險體系：

S1（無關回答）→ S4（災難性錯誤/Never Events，如推薦禁忌藥物）

一旦觸犯S4，無論其他維度得分多高，總分直接歸零——這是不可逾越的紅線。

GAPS解決了現有醫療AI評測僅關注“準確率”的局限，首次實現對循證決策能力、回答完備性、現實魯棒性與安全底線的系統性、自動化評估。

其優勢在于：以臨床指南為錨點，全自動構建高保真評測項與評分規則，兼具可擴展性、可復現性與臨床真實性，為AI向可信臨床伙伴演進提供精準導航。

核心黑科技：全自動化的“循證評測集”流水線

GAPS最大的技術亮點在于其端到端自動化與可擴展性

不同于以往依賴人工命題，GAPS構建了一套基于臨床指南（Guidelines）的自動化生成工廠：

證據鄰域構建：以NCCN、ESMO等權威指南為核心，自動抓取3跳內引用文獻，構建高可信醫學知識圖譜與疾病話題樹；
Deep Research Agent：基于GRADE方法學，模擬人類專家圍繞PICO（人群、干預、對照、結果）展開的證據檢索、證據評估、強弱推薦的流程，自動生成帶證據等級與推薦強度的高質量評分細則；
虛擬患者生成：利用大模型合成去隱私化臨床病例，并精準對齊知識圖譜，確保每道題“有據可依、有理可循”。

該流水線已成功應用于胸外科的專病——NSCLC（非小細胞肺癌），生成包含92道題、1691個臨床要點的評測集GAPS-NSCLC-preview

題目按認知深度分為G1~G4四級（從事實回憶到不確定性下的推理），每題均配備平均12項完整性（A1~A3）與7項安全性（S1~S4）評分要點，并支持P0~P3四級擾動測試。

未來可快速擴展至心血管、兒科、內分泌等任意?？频膶２☆I域——只要有指南，就能生成高質量評測集。

可靠的裁判：自動化評測讓AI醫療能力可量化、可復現、可進化

GAPS評測集同時搭配了一套高可靠性的自動化評測框架，實現了對AI臨床能力的客觀、細粒度、端到端的自動化評估。

為確保評測本身可信，團隊將自動化評分結果與五位資深專家的獨立標注進行嚴格比對：

在92個真實臨床查詢、1691個臨床要點上，該框架與專家共識的整體一致率達90.00%，Cohen’s Kappa系數達0.77（“實質性一致”），Macro-F1達0.88——不僅顯著優于現有基準（如HealthBench中GPT-4的0.79），已達到人類專家間一致性水平（88.5%~92.0%）。

這證明GAPS評測集的自動評判能力具備專家級可靠性。

在此基礎上，評測不再是終點，而是進化的起點。

框架輸出的結構化評分（G/A/P/S四維、MET/NOT-MET標記）可精準定位模型在循證決策、回答完備性、擾動魯棒性或安全紅線上的缺陷；

由此，GAPS具備成為“評測即反饋、反饋即迭代”的最重要基石——AI醫療能力不再依賴模糊經驗，而是通過可量化的指標、可復現的流程、可積累的進化路徑，穩步向臨床可用邁進。

實戰揭秘：頂尖大模型的“滑鐵盧”

研究團隊使用GAPS對GPT-5、Gemini 2.5 Pro、Claude Opus 4、Qwen3-235B-A22B-Instruct-2507、DeepSeek-V3.1-Terminus等主流模型進行“體檢”，結果發人深省：

1、“百科全書”易做，“專家”難當：

所有模型在G1（事實）和G2（解釋）階段表現優異（GPT-5得分約0.72）。但一旦進入G3（確定性決策）和G4（非確定性推理），分數呈斷崖式下跌，GPT-5在G4階段跌至0.45，其他模型甚至跌破0.35。這說明 AI目前還只是“背書機器”，而非“推理伙伴”。

2、不僅要“對”，還要“全”：

在Adequacy（完備性）測試中，模型往往只給出核心建議（A1），卻忽略了關鍵的限定條件（A2），導致臨床建議缺乏可操作性。

3、極其脆弱的耳根子：

在P3（對抗性測試）中，只要在提問中加入一點誤導性前提（例如暗示某種錯誤療法有效），模型的判斷力就會崩塌，甚至順從用戶的錯誤引導。

4、安全隱患：

雖然GPT-5和Gemini 2.5在極高風險錯誤（S4）上控制較好，但在復雜的推理場景下，部分模型（如Claude Opus 4）的致命錯誤率隨難度顯著上升。

結語：GAPS評測框架是AI醫生從“Chatbot”到“Doctor”的必經之路

GAPS的發布，標志著醫療AI的評測標準從“考試分數”“臨床勝任力”的范式轉移。

螞蟻健康與北大人民醫院的這項工作告訴行業——現有的通用大模型在面對復雜的臨床不確定性時，依然顯得稚嫩且脆弱。

未來的醫療AI研發，不能止步于預訓練知識的灌輸，而必須轉向循證推理（Evidence-grounded Reasoning）、過程決策控制以及不確定性管理

GAPS不僅僅是一個榜單，它更是醫療AI進化路上的“磨刀石”。只有跨越了GAPS設定的這四道關卡，AI醫生才能真正放心地走進診室。

論文地址：
https://arxiv.org/abs/2510.13734

評測集地址：
https://huggingface.co/datasets/AQ-MedAI/GAPS-NSCLC-preview

自動化評測框架地址：
https://github.com/AQ-MedAI/MedicalAiBenchEval

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.