網易首頁 > 網易號 > 正文申請入駐

臨床研究中的多重比較：以JAMA文獻為例講講Hochberg法

2026-03-11 19:17:29　來源: 醫咖會

北京舉報

分享至

本文整理自2026年3月5日發表在《JAMA》上的一篇文章，原文標題為“The Hochberg Procedure for the Comparison of Multiple End Points”。

在臨床研究中，通常需要對治療組與對照組的 多個結局或終點進行比較。相比單一終點，對多個終點分析能更全面地評估療效，但也伴隨著風險。

如果一種療法實際并沒有臨床益處，那么每增加一個終點的比較，就多了一次因為隨機誤差而產生“獲益假象”的可能，這在統計學上被稱為I類錯誤（Type I error）[1]。

隨著終點數量的增加，出現至少一個“假陽性”的累計概率就會變得過高。為了避免這種情況，當研究涉及多個終點時，通常需要采用更嚴格的統計標準，以控制得出假陽性結論的風險[1,2]。

2025年Anker等在JAMA期刊發表了FAIR-HF2試驗的結果[3]，該研究旨在觀察靜脈補鐵對伴有鐵缺乏的收縮性心衰患者發病率和死亡率的影響。在該試驗中，研究者設置了3個主要終點（與心血管死亡和心衰住院相關）。為了確保這3個終點的評估不會產生過多的假陽性風險，作者采用了Hochberg法進行校正[2-4]。

為什么要使用Hochberg法？

在證明療效更優的臨床試驗中，如果只檢測單一終點，通常會計算一個P值。如果 P值低于預設的閾值（通常單側檢驗為0.025，雙側檢驗為0.05），研究則宣稱治療有效。在實際治療無效的情況下，這套流程可將誤判有效的風險（假陽性）控制在2.5%以內（假設單側檢驗）。

然而，當檢測多個終點時，如果對每個終點都沿用上述標準，那么每次 2.5% 的誤判風險就會不斷累積。

舉個例子：如果某種療法實際上完全無效，而研究同時檢測8個互不相關的終點，那么在8個結論中至少出現1個“假陽性”結論的概率將飆升至約18%。

為了降低這種風險，我們需要使用“多重性校正（Multiplicity corrections）”。這些方法通過為每一次比較設置更嚴苛的門檻，確保即使進行了多次對比，在所有終點中出現一個假陽性結論的總概率，依然維持在預設的限制之內（例如2.5%）。

在探討多個終點時，這種“至少在一個終點上犯錯”的概率被稱為族系錯誤率（Family-wise error rate, FWER）。這里的“族系（Family）”指的是一組終點對比或假設檢驗[5]。

最廣為人知的多重性校正方法是Bonferroni校正，其做法非常簡單粗暴：將顯著性閾值（如0.025）直接除以檢測的終點數量K，即新的閾值= 0.025/K[1,2,6]。

雖然Bonferroni校正能嚴格控制族系錯誤率，但也被認為過于保守[6]。如果一種療法確實具有臨床療效，過于保守的校正方法會降低統計效能。也就是說，由于門檻設得太高，我們可能會錯失發現獲益的機會，導致研究出現“假陰性”。

為了解決這個問題，研究者開發了其他的多重性校正方法。這些方法在確保控制總錯誤率的前提下，通過對一部分比較采用稍寬松的準則，獲得更高的統計效能，增加檢測出真實療效的機會，Hochberg法就是這樣一種校正方案[2,4,7]。

Hochberg法具體是如何操作的？

在Hochberg法中，每個終點首先獨立進行分析，然后將得到的P值按從大到小的順序排列。該方法從最大的P值開始，逐一進行：

1、檢查最大的P值

如果最大的P值小于或等于總體的顯著性水平（例如單側0.025），那么該終點以及后面P值更小的終點，都被視為具有統計學顯著性。

2、如果第一步不顯著，評估第二個P值

如果最大的P值沒有達到標準，則轉為評估第二大P值。此時，對比的閾值會變得更嚴苛，即用原始閾值除以2（例如0.025/2=0.0125）。如果這個P值小于該閾值，那么該終點以及剩余P值更小的終點都視為顯著。

3、以此類推

如果第二大P值仍不顯著，則將第三大P值和原始閾值除以3（例如0.025/3=0.0083）進行比較。這個過程一直持續到某個P值達到對應的標準，或者所有P值都評估完畢。

其核心邏輯在于：只要在任何一步得到了顯著的結果，那么該結果以及排位更靠后（即P值更小）的終點，全部判定為顯著。

Hochberg法的替代方案與局限性

除了Hochberg法，還可以選擇：

不進行任何校正：當然這會導致極高的假陽性風險。
Bonferroni校正：如前所述，該方法過于保守，在療法確實有效時容易得出假陰性的結論。
Holm 校正： 這種方法與 Hochberg 法類似，但它是從最小P值開始比對。它比Bonferroni法的效能高，但略遜于Hochberg法[7]。

另一種替代方案是逐步守門法（stepwise gatekeeping procedure），即在分析數據前預先設定檢驗順序來控制假陽性風險。例如，按照終點事件的重要性從高到低進行檢驗，一旦出現第一個陰性結果即停止檢驗，但不會調整單個檢驗的統計顯著性標準[8]。

包括Hochberg法在內的多重性校正，核心在于控制假設檢驗中的假陽性，結論通常簡化為二元的"是"或"否"。在許多研究情境下，相較于單純關注統計學顯著性，更重要的是估計治療效應值的大小并量化這些估計值的不確定性。

不同多重性校正方法可能導致不同結論

對于同一組數據，Hochberg法可能顯示某些終點存在獲益，而另一種方法可能顯示另一組終點具有益處。

預先指定一種校正方法（如Hochberg法）有助于控制誤差風險，然而，更嚴格的標準也增加了不能識別出療法所有實際獲益的風險。如果有一個終點明顯最重要，那么將其作為唯一的主要終點進行比較而不進行任何校正，將其余終點指定為次要終點，將增加該終點取得陽性結果的機會。在設計臨床試驗時，研究者應選擇與自身研究目標最契合的終點指標和檢驗方法。

需要注意的是，應將Hochberg法與名稱相似的Benjamini-Hochberg法區分開來[9]。這兩種方法在不同場景下使用：Hochberg法通常用于臨床研究，以控制族系錯誤率；Benjamini-Hochberg法用于控制另一種指標——錯誤發現率（False Discovery Rate, FDR），即所有被拒絕的假設中假陽性的期望比例。錯誤發現率是一種相對寬松的誤差度量標準，常用于基因組學、神經影像學等高維度或大規模的多重檢驗場景。

案例分析：Hochberg法在FAIR-HF2試驗中的應用

FAIR-HF2試驗采用了Hochberg法比較治療組與對照組的3個主要終點[3]：

（1）心血管死亡或首次因心衰住院的時間；

（2）因心衰住院的總次數；

（3）在轉鐵蛋白飽和度低于20%的亞組患者中，心血管死亡或首次因心衰住院的時間。

將分析得到的雙側P值按從大到小排序如下：

P = 0.12 （心衰住院總次數）
P = 0.07 （轉鐵蛋白飽和度低的亞組的終點）
P = 0.04 （總體人群的心血管死亡或首次住院時間）

Hochberg法的判定過程如下：

首先將最大的P值 (0.12) 與預設的顯著性水平0.05進行比較。由于0.12 > 0.05，未達到顯著性。

接著，將下一個P值 (0.07) 與調整后的閾值0.025（即0.05/2）進行比較，依然未達到顯著性。

最后，將最小的P值 (0.04) 與0.0167（即0.05/3）進行比較，結果仍未達標。

由于這三個觀測到的P值都沒有低于各自對應的判定閾值，因此在統計學上，沒有任何一個終點被認為具有統計學顯著性。

如何解讀該結果？

在FAIR-HF2試驗中，3個主要終點在數值上顯示出獲益的趨勢，但根據Hochberg 法的校正標準，均未達到統計學顯著性。基于此，不能得出具有統計學意義的陽性結論。但這絕不等同于證明了該療法無效[10]。

在當前的多重檢驗框架下雖不顯著，但這并不能排除該療法在該人群中的真實獲益。這一點對于“心血管死亡或首次因心衰住院的時間”這一終點尤其重要，其原始P值為 0.04。如果研究在設計時將這個終點作為唯一的主要終點，結果本可達到統計學顯著性，但代價是我們將無法對另外兩個終點做出獨立的統計推斷。

這正是多重性校正方法的典型特征：核心目標是在得出陽性結論時確保結論的有效性（即嚴格控制假陽性風險），但代價是當結果接近顯著性邊界時，對陰性結論的解讀將變得困難。

附錄：原文獻的統計方法描述

JAMA這篇文獻，在統計方法中介紹Hochberg法時表述如下，供大家參考：

The 3 primary end points were considered statistically significant if the corresponding 2-sidedP values fulfilled at least 1 of the following conditions: (1) P≤.05 for all 3 of the end point comparisons, (2) P≤.025 for 2 of the end point comparisons, or (3) P≤.0167 for any of the 3 end point comparisons (Hochberg procedure). The Hochberg procedure controls for the family-wise type I error rate and should not be confused with the Benjamini-Hochberg procedure, which controls for the false discovery rate and is a weaker criterion than the type I error rate. Further explanation of the Hochberg procedure and examples of its application in heart failure trials are provided elsewhere. The family-wise type I error rate across the 4 secondary end points, which is formally tested only if all primary hypotheses are rejected, was also controlled for using the Hochberg procedure.

參考文獻：

1. Biometrics. 1987;43(3):487-498.

2. JAMA. 2014;312(5):543-544.

3. JAMA. 2025;333(22):1965-1976.

4. Biometrika. 1988;75(4):800-802.

5. Stat Med. 2020;39(9):1407-1413.

6. BMJ. 1995;310(6973):170.

7. Stat Med. 1997;16(22):2529-2542.

8. JAMA. 2017;318(14):1385-1386.

9. J R Stat Soc B. 1995;57(1):289-300.

10. JAMA. 2023;329(23):2023-2025.

文章整理自：JAMA. 2026 Mar 5. doi: 10.1001/jama.2026.0191.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.