<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      柳葉刀子刊:評估AI預測模型性能的常見指標和可視化圖形

      0
      分享至

      2025年12月,《Lancet Digital Health》發表了一篇文章“Evaluation of performance measures in predictive artificial intelligence models to support medical decisions: overview and guidance”,對評估AI預測模型性能的幾大類指標進行了總結。

      在前一篇推文中,我們介紹了幾大類指標的概念:1)區分度(discrimination)、2)校準度(calibration)、3)整體性能(overall performance)、4)分類(classification)、5)臨床效用(clinical utility)。

      詳見:

      接下來仍以ADNEX模型為例(該模型預測女性卵巢腫瘤的惡性概率),具體聊一聊這些指標以及相應的可視化圖形。所有R和Python代碼,均已公開于GitHub代碼倉庫,鏈接如下:

      https://github.com/benvancalster/PerfMeasuresOverview

      前文提到,性能指標應具備兩項關鍵特征(1)該指標應為“恰當”(proper)的指標;(2)該指標應明確聚焦于是反映統計價值還是決策分析價值不具備第一項特征的指標不可信賴,缺乏第二項特征的指標則含義模糊、難以解釋。下面在討論各指標時,會提及到這兩項特征。

      區分度(Discrimination)

      常見的區分度指標是一致性概率(concordance probability)或C統計量(C-statistic。對于二分類結局,C統計量等于受試者工作特征曲線下面積(AUROC),但當事件發生率遠遠偏離0.5時,一些研究者建議不要使用AUROC。有觀點認為,在罕見事件時,AUROC具有誤導性或過于樂觀。

      作為ROC曲線及AUROC的替代方案,常推薦使用精確率–召回率曲線(PR曲線)及其曲線下面積(AUPRC)。另一種替代AUROC的指標是部分AUROC(pAUROC),關注ROC曲線中特異度或靈敏度達到某個最低可接受水平的部分。AUROC、AUPRC和pAUROC均為“半恰當(semi-proper)”指標。

      區分能力對預測性AI模型至關重要,但僅憑AUROC一項指標不足以判定一個模型是否優秀或實用。使用PR曲線或ROC曲線進行可視化展示是可以接受的,但根據本文作者的經驗,這些圖所提供的信息并不比匯總性指標(如AUROC)或相關的臨床效用指標(如凈效益net benefit)更有價值。

      下圖1展示了本案例研究(ADNEX模型)的ROC曲線和PR曲線,基于“靈敏度低于0.8不可接受”這一觀點(但該觀點未經證實),展示出了pAUROC。

      ADNEX模型的AUROC為0.91(95%CI 0.89–0.93),AUPRC為0.89(95%CI 0.86–0.91)。去掉靈敏度低于0.8的部分后,pAUROC為0.14(95%CI 0.13–0.15)。




      圖1. ADNEX模型的ROC曲線(A)、PR曲線(B)和pAUROC(C)

      校準度(Calibration)

      統計學和機器學習文獻提過多種評估模型校準度的方法,這些方法可分為三個逐級嚴格的層級:均值校準(mean calibration)、弱校準(weak calibration)、中度校準(moderate calibration),前兩個層級主要源自統計學文獻。目前,關于第四個層級“強校準(strong calibration)”的量化研究仍在進行中。

      均值校準(也稱“整體校準”,calibration-in-the-large)用于評估模型預測概率的均值是否等于數據集觀察到的實際事件患病率。衡量整體校準的兩個常用指標是觀察值與預期值之比(O/E ratio)和校準截距(calibration intercept)。

      在本案例中,ADNEX模型的O/E比為1.23(95%CI:1.17–1.29),表明實際觀察到的事件數比模型預期高23%。校準截距為0.81(95%CI:0.62–1.01),提示模型平均而言低估了事件發生率(截距>0)。相比校準截距,O/E比具有更直觀的解釋意義。

      當一個模型的整體校準良好,且預測概率的離散程度(即分布范圍)不過大也不過小(通過校準斜率[calibration slope]量化),該模型被認為具有弱校準。若預測概率離散度過大,其預測概率值會過于接近0或1(校準斜率<1);若離散度過小,則預測值會集中在整體患病率附近(斜率>1)。在內部驗證中,校準斜率小于1可能提示模型存在過擬合風險。在本案例研究中,ADNEX模型的校準斜率為0.93(95%CI:0.83–1.05),表明預測概率的離散程度基本合適。

      中度校準意味著:對于所有預測概率為x的個體,實際事件的發生率也恰好等于x。評估中度校準最常用的方法是繪制校準圖(calibration plot),也稱為可靠性圖(reliability diagram)。校準圖可通過對個體分組或使用平滑法(smoothing)生成

      圖2展示了本案例研究中使用的兩種校準圖:一種基于等量分十組,另一種采用局部加權回歸平滑法(loess)進行平滑處理。兩條曲線大部分位于對角線的上方,表明在整個預測概率范圍內,模型系統性低估了事件風險。一個可能的原因是,在驗證研究的六個參與中心中,有五個是三級中心,因此惡性腫瘤的實際患病率較高。需要注意的是,分組校準圖無法全面評估中度校準,因為預測概率差異很大的個體仍可能被歸入同一組。


      圖2. ADNEX模型的校準圖

      已有研究提出了一些針對校準圖的匯總指標,例如針對分組校準圖的期望校準誤差(Expected Calibration Error, ECE),針對平滑校準圖的估計校準指數(Estimated Calibration Index, ECI)和整合校準指數(Integrated Calibration Index, ICI)。

      然而,與Hosmer–Lemeshow檢驗等統計學檢驗類似,這些匯總指標無法說明校準偏差方向,即模型是系統性高估還是低估風險。此外,ECE、ECI和ICI的數值依賴于所采用的分組或平滑方法,并且在統計一致性方面存在局限性。目前,學界正在研究更優的匯總指標。因此,包含置信區間的校準圖是評估校準性能的關鍵工具,因其能夠直觀展示在不同預測風險水平下的校準表現。

      上述所有校準指標均為半恰當(semi-proper)指標,聚焦于統計性能。

      整體性能(Overall performance)

      整體性能的基本評估指標包括基于似然函數的指標,如對數損(logloss,也稱為交叉熵損失)以及Brier評分(Brier score)。

      通過與零模型(null model)比較來表達模型性能的指標,包括標準化Brier評分(scaled Brier score,也稱預測準確度指數),以及用于測量解釋變異比例的R2類指標,例如McFadden R2、Cox–Snell R2和Nagelkerke R2。

      較少使用的整體性能指標還包括區分度斜率(discrimination slope,也稱判別系數)和平均絕對預測誤差(mean absolute prediction error,MAPE)。

      對數似然(loglikelihood)、對數損失(logloss)以及Brier評分屬于“嚴格恰當”(strictly proper)的指標;標準化Brier評分和各類R2指標屬于“漸近嚴格恰當”(asymptotically strictly proper)的指標(樣本量較大時,例如超過100,是嚴格恰當的);區分度斜率和平均絕對預測誤差屬于不恰當(improper)的指標。上述所有整體性能指標均聚焦于統計性能(模型的第二個關鍵特征,見上文所述)。

      整體性能的可視化,通常是分別展示事件組和非事件組預測概率的分布情況。圖3展示了ADNEX模型的小提琴圖(violin plots):良性腫瘤患者絕大多數具有極低的惡性風險預測概率;惡性腫瘤患者的預測概率大多處于中至較高水平,且分布更為分散。


      圖3. 基于ADNEX模型惡性風險預測概率的小提琴圖和散點圖

      分類指標

      (Classification measures)

      本案例使用的ADNEX模型推薦的常用閾值為10%。在此閾值下,將578名患者分類為高風險,其中414名確實患有惡性腫瘤(即真陽性),而164名實際為良性腫瘤(假陽性)。模型將剩余的316名患者分類為低風險,其中296名患者確實為良性腫瘤(真陰性),20名實際為惡性腫瘤(假陰性)。

      分類指標分為匯總指標(summary measures)和描述性部分指標(descriptive partial measures)。常見的部分指標包括靈敏度(也稱為召回率recall)、特異度、陽性預測值(PPV,也稱為精確率precision)和陰性預測值(NPV)。靈敏度和特異度是基于實際結果的分類準確性,但在預測時實際結果是未知的;PPV和NPV更具臨床相關性。匯總指標包括分類準確率、平衡準確率、約登指數Kappa、診斷比值比、F1、Matthew相關系數(MCC)。

      F1有點類似AUPRC,且存在一些共同的問題:(1) F1忽略了真陰性的問題;(2) F1沒有直觀的解釋;(3) 僅通過交換結果標簽(將1變為0,0變為1),F1的絕對值就會發生變化。MCC同樣也沒有直觀的解釋。

      在給定的決策閾值t下,所有的分類指標都屬于不恰當(improper)的指標。某些分類指標(如平衡準確率、約登指數和F1)在t=0.5(分類準確率)或t等于真實患病率時是半恰當(semi-proper)的指標,但這些閾值t很少是最具臨床相關性的閾值。F1是唯一一個沒有明確關注統計性能的匯總指標,因為它混合了分類效能與臨床效用。

      與分類性能相關的圖表包括ROC曲線和PR曲線,這些圖展示了在所有可能的決策閾值下的部分分類指標。這些圖的局限性在于并不容易直接觀察到閾值(見圖1)。另一種圖是分類圖(classification plot)(圖4),在x軸上展示決策閾值,在y軸上展示一個或多個分類指標。


      圖4. ADNEX模型的分類圖

      ADNEX模型在10%的閾值下,顯示出分類準確率為0.79(95% CI 0.77–0.82),F1為0.82(0.79–0.84),MCC為0.63(0.58–0.67)。

      臨床效用(Clinical utility)

      根據經典的決策分析理論,臨床效用關注的是基于模型分類所做出的決策質量,這些分類需要對應于臨床相關的閾值。為了評估效用,要明確考慮誤分類成本。在醫療領域的預測研究中,用于評估臨床效用最常用的指標是凈效益(net benefit)。標準化凈效益等于凈效益除以患病率,最大值為1。

      凈效益根據誤分類成本設定決策閾值。設定誤分類成本并不容易,關于成本應該是什么,還存在爭議。因此,凈效益或標準化凈效益會在一系列合理的決策閾值范圍內繪制決策曲線。凈效益和標準化凈效益屬于半恰當指標。

      還有一個指標是預期成本(expected cost)。與凈效益不同,預期成本關注的是,給定誤分類成本時讓總成本最小化的決策閾值,預期成本也是半恰當指標。如果把成本標準化為總和為1,可以繪制出一系列標準化的假陽性和假陰性成本的預期成本圖。

      根據決策理論,關鍵是要檢查模型是否比參考策略(即治療所有的人或任何人都不治療)具有更好的效用,如果更好的話,還要和其他競爭模型比較。在所有合理的決策閾值范圍內,ADNEX的(標準化)凈效益均優于參考策略(圖5A-B)。預期成本曲線也給出了相同的結果(圖5C)。當t=0.1時,模型的凈效益為0.44。假陰性的標準化成本為0.9,預期成本在t=0.06時最小化至0.35。




      圖5. ADNEX模型的決策曲線:凈效益、標準化凈效益和預期成本

      總結

      本文評估了用于醫療實踐的預測性AI模型在五個性能維度(區分度、校準度、整體性能、分類性能和臨床效用)的32項指標。在驗證預測模型性能時,要避免使用那些不恰當(improper)的指標(共13項),或那些未能明確聚焦于統計性能或決策分析性能的指標(3項;見表1)。其中,F1是唯一同時違反上述兩項特征的指標。

      不恰當指標可能誤導研究者,而那些在未妥善考慮誤分類成本的情況下,將統計性能與決策分析性能混為一談的指標則具有模糊性,應被專門用于評估臨床效用的指標所取代。

      表1. 在驗證用于臨床決策的預測模型時,常用的各類指標與圖表的建議

      指標

      建議

      區分度(Discrimination)

      AUROC

      該指標量化模型的區分度,是統計模型性能的關鍵組成部分。

      AUPRC和pAUROC

      不建議

      這些指標試圖超越單純的統計評估,但又不符合決策分析的基本原則。

      ROC曲線和PR曲線

      非必需,但也沒有不建議

      相較于AUROC,這些曲線提供的額外信息有限。

      校準度(Calibration)

      O/E比(觀察值/期望值比)

      非必需,但也沒有不建議

      該指標易于解釋,但僅能部分反映校準情況;在內部驗證中,O/E比常為1或接近1。

      校準截距與校準斜率

      非必需,但也沒有不建議

      這些指標難以直觀解釋,且僅提供部分校準信息;內部驗證時,校準斜率可用于評估過擬合風險。

      ECI、ICI和ECE

      非必需

      這些指標是對校準圖的匯總性指標,會掩蓋校準偏差的性質和方向,且存在統計一致性問題。

      校準圖或可靠性圖

      這是評估校準度最富洞察的方法,推薦使用平滑法而非分組法;內部驗證時可優先使用校準圖,若僅報告校準斜率也是可接受的;外部驗證時強烈推薦使用校準圖,并應標明不確定性(例如95%CI)。

      整體性能(Overall performance)

      對數似然、Brier 評分、R2 類指標

      非必需,但也沒有不建議

      建議將區分度與校準度分開評估。這些指標在模型選擇中高度相關,但本文未涵蓋該內容。

      區分度斜率與平均絕對預測誤差(MAPE)

      不建議

      這些指標屬于“不恰當”指標,即錯誤模型的得分可能優于正確模型。

      風險分布圖

      展示不同結局類別下風險預測值的分布,有助于深入理解模型。

      分類性能(Classification)

      分類準確率、平衡準確率、約登指數、診斷比值比、Kappa、F1、MCC

      不建議

      在臨床相關決策閾值下,這些指標均“不恰當”;此外,部分指標難以解釋。

      靈敏度與特異度

      非必需;若一起報告可作為描述性指標

      分別單獨報告是不合適的,但若兩者同時報告,可作為描述性指標。然而,因其依賴實際結局,在預測時不具備直接實用性。

      陽性預測值(PPV)與陰性預測值(NPV)

      非必需;若一起報告可作為描述性指標

      分別單獨報告是不合適的,但同時報告具有高度臨床實用性。

      分類圖

      非必需,但也沒有不建議

      可作為描述性圖表呈現,按閾值展示靈敏度與特異度,或PPV與NPV。

      臨床效用(Clinical utility)

      凈效益或標準化凈效益(帶決策曲線),預期成本(帶成本曲線)

      這些是量化模型能否促成更優臨床決策的重要指標。凈效益的決策曲線可展示在不同臨床相關閾值下,相對于參考策略(及其他競爭模型)的潛在臨床價值。

      本文認為,面向醫療實踐的預測性AI模型的性能評估應聚焦于區分度、校準度和臨床效用。區分度和校準度有助于建模者和臨床醫生理解如何改進模型,臨床效用則從決策者和患者的角度出發,評估模型是否能促成更優的臨床決策。

      本文推薦采用以下核心指標與圖表組合在研究報告中呈現:

      • AUROC(用于評估區分度);

      • 平滑校準圖(用于評估校準度);

      • 臨床效用指標(如帶決策曲線的凈效益);

      • 按結局類別展示預測概率分布的圖形。

      在內部驗證AI模型時,校準度的重要性可能相對較低,因為模型開發與內部驗證基于相同的人群。但在外部驗證中(即在不同人群或臨床環境中評估模型時),校準度就尤為關鍵。盡管內部驗證時使用校準圖也有價值,但僅報告校準斜率,輔以O/E比通常已足夠,對于構建良好的模型,預期其O/E比應接近1。

      除上述核心指標外,PPV聯合NPV,或靈敏度聯合特異度,也可作為描述性指標予以報告。但需注意,這些指標若單獨報告則屬于“不恰當”指標。

      所有報告的指標和圖表,在可能的情況下都應附帶置信區間,臨床效用指標除外,針對其不確定性的量化仍是近期學術爭論與研究的焦點。

      本文建議不要使用 F1、AUPRC 或 pAUROC,而應采用專門的臨床效用指標來評估模型性能。需要指出的是,本文的觀點不適用于某些真陰性難以明確定義的醫療場景,例如病灶檢測。

      有三個與性能評估相關的重要問題值得強調:樣本量(sample size)、性能異質性(performance heterogeneity)、報告透明度(reporting transparency)。

      充足的樣本量對于精確評估模型性能至關重要。以往建議最小的結局類別中至少包含100至200名個體。目前已有更具體的樣本量計算方法用于基于回歸的預測模型。在比較不同模型的校準性能時,通常需要更大的樣本量。

      由于不同地區、環境或時間段的人群特征和測量流程存在差異,模型性能的異質性是預料中的。可通過Meta分析和Meta回歸對多個外部驗證研究的性能異質性進行量化和解釋。若簡單地將基于不同外部數據集驗證的模型進行直接比較,可能得出錯誤結論。

      全面透明地報告預測性AI模型研究至關重要,可遵循TRIPOD+AI及相關報告規范。為避免“性能操縱”(performance hacking),應重視預先發表研究方案,并在合理可行的情況下共享代碼和數據

      本文整理自:Lancet Digit Health. 2025 Dec 13:100916.


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      哈爾濱冰雪大世界發布閉園公告:冰雪景觀融化嚴重,退票游客可免費游覽下一屆

      哈爾濱冰雪大世界發布閉園公告:冰雪景觀融化嚴重,退票游客可免費游覽下一屆

      環球網資訊
      2026-02-22 15:24:25
      15年前,一位高手教給我15條“老掉牙”的交易規則,卻讓人年年賺錢

      15年前,一位高手教給我15條“老掉牙”的交易規則,卻讓人年年賺錢

      匯商Forexpress
      2026-02-03 10:00:00
      告別“例行公事”,這幾個技巧讓你高潮不斷

      告別“例行公事”,這幾個技巧讓你高潮不斷

      精彩分享快樂
      2026-01-08 19:18:46
      “中國要被我們拖垮了!”24年,韓國掀起拒絕吃中國進口白菜浪潮

      “中國要被我們拖垮了!”24年,韓國掀起拒絕吃中國進口白菜浪潮

      扶蘇聊歷史
      2026-01-23 10:28:26
      比福建艦還大!4艘萬噸巨船同時出塢,美這才明白,輸給中國了

      比福建艦還大!4艘萬噸巨船同時出塢,美這才明白,輸給中國了

      溫讀史
      2026-01-09 23:42:22
      哈佛大學:被父母用心關注的孩子,其大腦發育速度比同齡人快30%

      哈佛大學:被父母用心關注的孩子,其大腦發育速度比同齡人快30%

      追尋文史
      2026-02-21 22:24:30
      5連勝!勝率超雷霆,聯盟第1!本賽季頭號黑馬,劍指隊史第4冠

      5連勝!勝率超雷霆,聯盟第1!本賽季頭號黑馬,劍指隊史第4冠

      弄月公子
      2026-02-22 13:01:35
      劉濤意外登上熱搜,與媽祖換人事件對比鮮明,敬畏之心不可丟

      劉濤意外登上熱搜,與媽祖換人事件對比鮮明,敬畏之心不可丟

      然哥閑聊
      2026-02-22 09:48:32
      早上七點起床錯了?醫生建議:過了70歲,起床要盡量做到這7點

      早上七點起床錯了?醫生建議:過了70歲,起床要盡量做到這7點

      泠泠說史
      2025-10-23 16:41:51
      歐文復出疑云再起!獨行俠刪訓練視頻,聯盟擺爛新規藏貓膩!

      歐文復出疑云再起!獨行俠刪訓練視頻,聯盟擺爛新規藏貓膩!

      籃球小布丁
      2026-02-23 03:36:33
      深夜十點!宏遠陳老板約談杜鋒,徐杰離開國家隊,貝茲利官宣回歸

      深夜十點!宏遠陳老板約談杜鋒,徐杰離開國家隊,貝茲利官宣回歸

      多特體育說
      2026-02-22 21:52:55
      4年財務造假,股價從最高42元跌到0.29元,最后退市

      4年財務造假,股價從最高42元跌到0.29元,最后退市

      財經智多星
      2026-02-22 21:35:21
      中國游客在新西蘭又出事!護照上交,還要花錢消災,“有些東西,錢都賠不了”

      中國游客在新西蘭又出事!護照上交,還要花錢消災,“有些東西,錢都賠不了”

      發現新西蘭
      2026-02-20 11:48:23
      4-1,阿森納終結2輪英超不勝+5分優勢領跑,埃澤、哲凱賴什雙響

      4-1,阿森納終結2輪英超不勝+5分優勢領跑,埃澤、哲凱賴什雙響

      側身凌空斬
      2026-02-23 02:37:12
      太敢說!咸魚被稱國內黑市,果然夠全面

      太敢說!咸魚被稱國內黑市,果然夠全面

      另子維愛讀史
      2026-02-03 22:10:36
      巴恩斯利青訓主管:徐彬態度極佳,是位令人難以置信的運動員

      巴恩斯利青訓主管:徐彬態度極佳,是位令人難以置信的運動員

      懂球帝
      2026-02-22 15:24:29
      火箭隊主帥在慘敗尼克斯后,公開批評阿門·湯普森和里德·謝潑德

      火箭隊主帥在慘敗尼克斯后,公開批評阿門·湯普森和里德·謝潑德

      好火子
      2026-02-22 22:51:45
      “初中女生被老人索賠22萬”,家長最新回應:對方已撤訴,不希望再占用公共資源

      “初中女生被老人索賠22萬”,家長最新回應:對方已撤訴,不希望再占用公共資源

      封面新聞
      2026-02-22 00:27:04
      報復一個人最狠的方法,不是翻臉,不是打壓,而是佛家三句話

      報復一個人最狠的方法,不是翻臉,不是打壓,而是佛家三句話

      瓜哥的動物日記
      2026-02-14 00:59:40
      1-0!1.1億先生臨陣傷退,麥卡96分鐘絕殺,利物浦客場復仇

      1-0!1.1億先生臨陣傷退,麥卡96分鐘絕殺,利物浦客場復仇

      我的護球最獨特
      2026-02-23 00:03:56
      2026-02-23 04:28:49
      醫咖會
      醫咖會
      生動有趣的形式傳遞醫學新進展
      2764文章數 10973關注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發射超過10000顆衛星

      頭條要聞

      男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細節披露

      頭條要聞

      男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細節披露

      體育要聞

      谷愛凌:6次參賽6次奪牌 我對自己非常自豪

      娛樂要聞

      谷愛凌:真正的強大 敢接納生命的節奏

      財經要聞

      特朗普新加征關稅稅率從10%提升至15%

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      數碼
      手機
      游戲
      時尚
      軍事航空

      數碼要聞

      古爾曼:蘋果3月2 - 4日發布“至少五款產品”

      手機要聞

      iPhone 18 Pro或將迎來深紅色革新,折疊屏iPhone則主打經典配色

      《GTA6》的第二天發售?《寶可夢》新作爆料來了!

      50+女人更適合基礎款,掌握3個高段位搭配思路,輕松提升品味

      軍事要聞

      約旦基地美軍戰機驟增 包括F-35隱形戰斗機

      無障礙瀏覽 進入關懷版