<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI醫生終于有了硬標尺!螞蟻發布全球首個專病循證評測框架GAPS

      0
      分享至

      允中 發自 凹非寺
      量子位 | 公眾號 QbitAI

      螞蟻健康與北京大學人民醫院王俊院士團隊歷時6個多月,聯合十余位胸外科醫生共同打磨,發布了全球首個大模型專病循證能力的評測框架

      GAPS(Grounding, Adequacy, Perturbation, Safety),及其配套評測集 GAPS-NSCLC-preview。

      旨在解決現有醫療AI評測局限于考試式問答、缺乏臨床深度、完整性、魯棒性與安全性綜合評估的問題。

      該評測集聚焦肺癌領域,包含92個問題、覆蓋1691個臨床要點,并配套全自動化的評測工具鏈,通過指南錨定、多智能體協同實現從問題生成、評分標準制定到多維度打分的端到端自動化。

      目前,相關成果已應用于“螞蟻阿福”,論文《GAPS: A Clinically Grounded, Automated Benchmark for Evaluating AI Clinicians》、配套評測集GAPS-NSCLC-preview、自動化評測框架已全面公開。



      這項研究客觀評價了大模型的臨床能力:當前主流醫療大模型雖已具備“醫學百科全書”般的知識廣度,但在臨床實踐中仍處于成長階段——

      它們在系統掌握醫學知識方面表現卓越,但在應對真實臨床場景中的不確定性挑戰時,尚需進一步提升判斷力與可靠性。

      權威引領:北大人民醫院院士團隊深度主導臨床標準構建

      本項目由中國工程院院士、北京大學人民醫院院長王俊教授領銜的團隊全程主導,并與螞蟻團隊深度協作完成。

      在GAPS構建過程中,院士團隊原創性地提出了GAPS評測的理論框架,并組織十余位胸外科醫生持續參與評測題庫構建、臨床金標準答案撰寫、模型輸出的專業審核與迭代優化,提供NSCLC(非小細胞肺癌)領域前沿臨床指南的權威解讀與循證醫學方法論指導,確保每一項指標都扎根真實臨床實踐,具備高度專業性與可信度。

      螞蟻團隊則發揮大模型與工程化能力優勢,經過多輪高強度醫工協同與反復迭代,將專家腦海中的復雜“臨床金標準”精準沉淀為大模型可理解、可執行的結構化邏輯,實現GAPS的規?;?、自動化與可落地應用。

      此次合作實現了“臨床專家定標準、AI 技術做轉化”的深度融合,突破了傳統醫療AI評測中專家淺層參與的局限,標志著頂尖臨床專家與AI技術團隊的深度協作,為醫療AI從“技術驅動”走向“臨床價值驅動”樹立了新的范式。

      行業痛點:考得好,信不過

      在和大模型討論醫療問題時,有時候回答得很好,有時候回答得很差,由于大模型的變化日新月異,醫生和患者都沒有辦法在短時間對大模型產生客觀評價,因此對大模型的信任就無從談起。

      為了客觀評價大模型的能力,學界通常采用基準測試的方法。

      然而,當前醫療AI的基準測試普遍缺乏對模型循證能力、可解釋性與安全性的系統評估。

      長期以來,醫療AI的評估依賴MedQA、PubMedQA等“試卷型”基準,僅考察事實記憶能力;而HealthBench等基于人工評分細則(Rubric)的方法又受限于主觀性強、擴展性差。

      這些方法無法反映真實診療場景:患者描述模糊、檢查結果矛盾、治療方案需權衡利弊……正如論文所強調:

      • 真正的醫療能力不在于背誦事實,而在于管理不確定性。

      尤其在肺癌這一全球致死率最高的癌癥領域,缺乏細粒度、專病化的評估工具,使得醫療機構和開發者難以客觀判斷醫療AI是否真正具備臨床可用性。

      GAPS的誕生,正是為了填補這一關鍵空白。

      破局之道:GAPS——從“考試機器”到“臨床醫生”的四維標尺

      GAPS是一個基于循證醫學、全自動構建的AI臨床能力評測框架,首次將臨床勝任力解構為四個正交維度,并聚焦NSCLC(非小細胞肺癌)這一高難度專病場景進行系統驗證:

      1、G(Grounding)認知深度:不止于“是什么”,更考驗“為什么”和“怎么辦”。

      • G1和G2:事實回憶與解釋(AI的舒適區)
      • G3:基于指南的循證決策(如NCCN推薦方案)
      • G4:推理性思維(Inferential Reasoning)——在證據沖突或缺失的“灰色地帶”做出合理判斷,這是當前所有模型的“死亡區”。

      2、A(Adequacy)回答完備性:醫生的一句話可能關乎生死。GAPS引入三級評價:

      • A1(必須有):核心診療建議
      • A2(應該有):關鍵限定條件(如劑量、禁忌癥、監測指標)
      • A3(錦上添花):患者教育、多學科協作建議等

      缺少A2,再“正確”的建議也可能導致臨床誤用。

      3、P(Perturbation)魯棒性:真實患者不會照著教科書說話。GAPS通過三類擾動測試模型抗干擾能力:

      • P1:語言噪音(口誤、方言)
      • P2:冗余信息(無關癥狀堆砌)
      • P3:對抗性前提(如誘導性錯誤假設)

      實驗顯示,多數模型極易被誤導,甚至順從用戶的錯誤引導。

      4、S(Safety)安全底線:醫療容不得“差不多”。GAPS 建立四級風險體系:

      S1(無關回答)→ S4(災難性錯誤/Never Events,如推薦禁忌藥物)

      一旦觸犯S4,無論其他維度得分多高,總分直接歸零——這是不可逾越的紅線。

      GAPS解決了現有醫療AI評測僅關注“準確率”的局限,首次實現對循證決策能力、回答完備性、現實魯棒性與安全底線的系統性、自動化評估。

      其優勢在于:以臨床指南為錨點,全自動構建高保真評測項與評分規則,兼具可擴展性、可復現性與臨床真實性,為AI向可信臨床伙伴演進提供精準導航。

      核心黑科技:全自動化的“循證評測集”流水線

      GAPS最大的技術亮點在于其端到端自動化與可擴展性

      不同于以往依賴人工命題,GAPS構建了一套基于臨床指南(Guidelines)的自動化生成工廠:

      1. 證據鄰域構建:以NCCN、ESMO等權威指南為核心,自動抓取3跳內引用文獻,構建高可信醫學知識圖譜與疾病話題樹;
      2. Deep Research Agent:基于GRADE方法學,模擬人類專家圍繞PICO(人群、干預、對照、結果)展開的證據檢索、證據評估、強弱推薦的流程,自動生成帶證據等級與推薦強度的高質量評分細則;
      3. 虛擬患者生成:利用大模型合成去隱私化臨床病例,并精準對齊知識圖譜,確保每道題“有據可依、有理可循”。

      該流水線已成功應用于胸外科的專病——NSCLC(非小細胞肺癌),生成包含92道題、1691個臨床要點的評測集GAPS-NSCLC-preview

      題目按認知深度分為G1~G4四級(從事實回憶到不確定性下的推理),每題均配備平均12項完整性(A1~A3)與7項安全性(S1~S4)評分要點,并支持P0~P3四級擾動測試。

      未來可快速擴展至心血管、兒科、內分泌等任意??频膶2☆I域——只要有指南,就能生成高質量評測集。



      可靠的裁判:自動化評測讓AI醫療能力可量化、可復現、可進化

      GAPS評測集同時搭配了一套高可靠性的自動化評測框架,實現了對AI臨床能力的客觀、細粒度、端到端的自動化評估。

      為確保評測本身可信,團隊將自動化評分結果與五位資深專家的獨立標注進行嚴格比對:

      在92個真實臨床查詢、1691個臨床要點上,該框架與專家共識的整體一致率達90.00%,Cohen’s Kappa系數達0.77(“實質性一致”),Macro-F1達0.88——不僅顯著優于現有基準(如HealthBench中GPT-4的0.79),已達到人類專家間一致性水平(88.5%~92.0%)。

      這證明GAPS評測集的自動評判能力具備專家級可靠性。

      在此基礎上,評測不再是終點,而是進化的起點。

      框架輸出的結構化評分(G/A/P/S四維、MET/NOT-MET標記)可精準定位模型在循證決策、回答完備性、擾動魯棒性或安全紅線上的缺陷;

      由此,GAPS具備成為“評測即反饋、反饋即迭代”的最重要基石——AI醫療能力不再依賴模糊經驗,而是通過可量化的指標、可復現的流程、可積累的進化路徑,穩步向臨床可用邁進。



      實戰揭秘:頂尖大模型的“滑鐵盧”

      研究團隊使用GAPS對GPT-5、Gemini 2.5 Pro、Claude Opus 4、Qwen3-235B-A22B-Instruct-2507、DeepSeek-V3.1-Terminus等主流模型進行“體檢”,結果發人深省:

      1、“百科全書”易做,“專家”難當:

      所有模型在G1(事實)和G2(解釋)階段表現優異(GPT-5得分約0.72)。但一旦進入G3(確定性決策)和G4(非確定性推理),分數呈斷崖式下跌,GPT-5在G4階段跌至0.45,其他模型甚至跌破0.35。這說明 AI目前還只是“背書機器”,而非“推理伙伴”。



      2、不僅要“對”,還要“全”:

      在Adequacy(完備性)測試中,模型往往只給出核心建議(A1),卻忽略了關鍵的限定條件(A2),導致臨床建議缺乏可操作性。



      3、極其脆弱的耳根子:

      在P3(對抗性測試)中,只要在提問中加入一點誤導性前提(例如暗示某種錯誤療法有效),模型的判斷力就會崩塌,甚至順從用戶的錯誤引導。



      4、安全隱患:

      雖然GPT-5和Gemini 2.5在極高風險錯誤(S4)上控制較好,但在復雜的推理場景下,部分模型(如Claude Opus 4)的致命錯誤率隨難度顯著上升。



      結語:GAPS評測框架是AI醫生從“Chatbot”到“Doctor”的必經之路

      GAPS的發布,標志著醫療AI的評測標準從“考試分數”“臨床勝任力”的范式轉移。

      螞蟻健康與北大人民醫院的這項工作告訴行業——現有的通用大模型在面對復雜的臨床不確定性時,依然顯得稚嫩且脆弱。

      未來的醫療AI研發,不能止步于預訓練知識的灌輸,而必須轉向循證推理(Evidence-grounded Reasoning)、過程決策控制以及不確定性管理

      GAPS不僅僅是一個榜單,它更是醫療AI進化路上的“磨刀石”。只有跨越了GAPS設定的這四道關卡,AI醫生才能真正放心地走進診室。

      論文地址:
      https://arxiv.org/abs/2510.13734

      評測集地址:
      https://huggingface.co/datasets/AQ-MedAI/GAPS-NSCLC-preview

      自動化評測框架地址:
      https://github.com/AQ-MedAI/MedicalAiBenchEval

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      男子摳腳“摳”出滿腳“菜花”,肛周也有少量,最終確診HPV

      男子摳腳“摳”出滿腳“菜花”,肛周也有少量,最終確診HPV

      極目新聞
      2025-12-29 08:42:39
      上梁不正下梁歪?半個月吳秀波迎兩大噩耗,兒子兩年前疑自絕后路

      上梁不正下梁歪?半個月吳秀波迎兩大噩耗,兒子兩年前疑自絕后路

      素衣讀史
      2025-12-17 14:03:31
      曝利物浦9500萬挖角國米中衛 一舉刷新后衛轉會紀錄

      曝利物浦9500萬挖角國米中衛 一舉刷新后衛轉會紀錄

      球事百科吖
      2025-12-30 01:33:50
      中國動“真格”中方霸氣警告:90天不給358億賠償,18艘軍艦不給

      中國動“真格”中方霸氣警告:90天不給358億賠償,18艘軍艦不給

      瞳哥視界
      2025-12-29 20:55:09
      伊能靜帶公婆迪拜度假,一家8口住VIP海景房,秦昊陪9歲女兒畫畫

      伊能靜帶公婆迪拜度假,一家8口住VIP海景房,秦昊陪9歲女兒畫畫

      娛圈小愚
      2025-12-30 10:07:49
      聯盟最無情的球隊?和東契奇齊名的控衛被擺上貨架,兢兢業業7年

      聯盟最無情的球隊?和東契奇齊名的控衛被擺上貨架,兢兢業業7年

      你的籃球頻道
      2025-12-30 13:17:03
      北大一副教授因右眼被注工業氣受傷多年 案件重審后一審開庭:索賠406萬余元

      北大一副教授因右眼被注工業氣受傷多年 案件重審后一審開庭:索賠406萬余元

      紅星新聞
      2025-12-30 11:47:38
      武元甲痛心直言,黎筍固執致中越開戰,錯失數十年攜手發展

      武元甲痛心直言,黎筍固執致中越開戰,錯失數十年攜手發展

      嘮叨說歷史
      2025-12-29 15:35:25
      重磅!6500萬帕斯回歸協議達成,皇馬900萬回購,血賺到底!

      重磅!6500萬帕斯回歸協議達成,皇馬900萬回購,血賺到底!

      田先生籃球
      2025-12-29 20:10:50
      郇斯楠持續進化!爆砍20+6,2.15米高塔朝著文班亞馬方向蛻變!

      郇斯楠持續進化!爆砍20+6,2.15米高塔朝著文班亞馬方向蛻變!

      田先生籃球
      2025-12-30 10:52:50
      紅人洛桑之死,時隔25年后,搭檔博林坦白:他根本沒喝多少酒

      紅人洛桑之死,時隔25年后,搭檔博林坦白:他根本沒喝多少酒

      不寫散文詩
      2025-12-07 13:44:15
      胰腺癌去世的人越來越多!專家:牢記飯后4不做,飯前3不吃

      胰腺癌去世的人越來越多!專家:牢記飯后4不做,飯前3不吃

      岐黃傳人孫大夫
      2025-12-20 11:45:03
      泡泡瑪特開始五折甩賣,二手平臺上Labubu部分款式跌破原價,部分黃牛公開聲明“暫緩收購Labubu系列”

      泡泡瑪特開始五折甩賣,二手平臺上Labubu部分款式跌破原價,部分黃牛公開聲明“暫緩收購Labubu系列”

      極目新聞
      2025-12-29 19:54:13
      你老公就在我旁邊!

      你老公就在我旁邊!

      果粉之家
      2025-11-06 12:00:56
      美媒:想要不輸給中國,美國唯一的補救機會,就是和與全世界結盟

      美媒:想要不輸給中國,美國唯一的補救機會,就是和與全世界結盟

      boss外傳
      2025-12-29 14:00:09
      那個被全單位孤立的掛職干部,我陪他吃了一年食堂,如今他回來了

      那個被全單位孤立的掛職干部,我陪他吃了一年食堂,如今他回來了

      星宇共鳴
      2025-12-26 09:58:41
      重慶:全面徹底肅清流毒影響

      重慶:全面徹底肅清流毒影響

      新京報政事兒
      2025-12-29 22:37:06
      阿拉法特遺孀蘇哈:巴政府每月給3.5萬美元,當最富裕的風流寡婦

      阿拉法特遺孀蘇哈:巴政府每月給3.5萬美元,當最富裕的風流寡婦

      豐譚筆錄
      2025-12-30 10:44:42
      四川4市發布干部任前公示

      四川4市發布干部任前公示

      微甘孜
      2025-12-30 11:11:48
      玥兒姐弟沒回北京讀書真相!馬筱梅:英數理要補習,和北京有差距

      玥兒姐弟沒回北京讀書真相!馬筱梅:英數理要補習,和北京有差距

      小徐講八卦
      2025-12-30 09:03:02
      2025-12-30 14:07:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11944文章數 176346關注度
      往期回顧 全部

      科技要聞

      估值150億的智元,開始批量"制造"小獨角獸

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

      體育要聞

      這個59歲的胖子,還在表演“蝎子擺尾”

      娛樂要聞

      林俊杰官宣文案爭議!女方名字都不提

      財經要聞

      朱光耀:美關稅政策正使WTO名存實亡

      汽車要聞

      標配華為乾崑ADS 4 Pro 華境S明年上半年上市

      態度原創

      數碼
      房產
      親子
      旅游
      軍事航空

      數碼要聞

      英特爾PantherLake新品CES 2026搶先看,AI PC生態邁入智能體時代

      房產要聞

      重磅信號!2025最后幾天,三亞開發商開始集體漲價!

      親子要聞

      后續!3歲“熊孩子”頭卡石像懷中,家長回應!評論區笑不活了!

      旅游要聞

      博物館里迎新年,濟南文博活動再“上新”

      軍事要聞

      福建海警艦艇與臺海巡船對峙航行

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 长丰县| 国产精品久久久久aaaa| 亚洲中文字幕在线看| 国内精品久久人妻无码AV探花影视| 国产成人?综合?亚洲| 内射极品少妇xxxxxhd| 少妇私密会所按摩到高潮呻吟| 香蕉在线精品一区二区| 国产精品乱码一区二区三区| 色婷av| 精品久久久久久国产| 内射合集对白在线| 国产精品毛片一区视频播| 亚洲成人经典| 极品人妻少妇| 久久久久国产精品熟女影院| 久久高潮少妇视频免费| 亚洲激情AV| 祁门县| 秋霞鲁丝片av无码少妇| 久久成人电影| 北条麻妃无码| 亚洲区色| 亚洲综合色丁香婷婷六月图片| 亚洲人成亚洲精品| 真实单亲乱l仑对白视频| 成人午夜无码福利视频| www亚洲无码| 爱情岛论坛首页永久入口| 国产在线观看免费观看不卡| 自拍偷拍亚洲| 成人av无码一区二区三区| 国产suv精品一区二区69| av新版天堂在线观看| 色婷婷久| 一本大道色婷婷在线| 国产熟女高潮视频| 久久国产精品波多野结衣| 札达县| 国产偷国产偷亚洲清高网站| 免费看男女做好爽好硬视频|