本文內(nèi)容整理自醫(yī)咖會(huì)《缺失值的處理和常見研究類型的統(tǒng)計(jì)分析》專欄,小咖針對(duì)缺失數(shù)據(jù)處理的核心方法進(jìn)行了整理,可點(diǎn)擊左下角“閱讀原文”查看完整視頻。
缺失數(shù)據(jù)的處理方法主要分為三大類:基于完整觀測(cè)單位的方法、基于填補(bǔ)的方法、基于人工智能的方法。結(jié)合臨床實(shí)踐和臨床科研的多年經(jīng)驗(yàn),常用的6種處理方法為:直接刪除法、單一填補(bǔ)法、虛擬變量法、均值填補(bǔ)法、回歸填補(bǔ)法、多重填補(bǔ)法。前5種方法具體情況如下:
![]()
問
直接刪除法
直接刪除缺失數(shù)據(jù)。如RCT中忽略未完成治療的患者,進(jìn)行符合研究方案分析(per protocol),這種PP分析容易導(dǎo)致高估療效。若缺失數(shù)據(jù)所占的比例特別低,對(duì)結(jié)果的影響可以忽略時(shí),也可以直接刪除。直接刪除法簡(jiǎn)單易行,好操作,但損失了部分信息,甚至可能得出錯(cuò)誤結(jié)果,所以使用前必須評(píng)估可行性。
![]()
問
單一填補(bǔ)法
使用單一的原則進(jìn)行填補(bǔ)。與PP分析相對(duì)應(yīng)的是意向性(ITT)分析,將未完成治療的兩組設(shè)定為未發(fā)生陽(yáng)性結(jié)局,即無療效。這種方法易縮小兩組的差距,低估試驗(yàn)結(jié)果。
![]()
有些研究中會(huì)使用末次填補(bǔ)法,即使用前一次的數(shù)據(jù)填補(bǔ)后面的缺失數(shù)據(jù)。該方法更適合脫落或失訪后較為穩(wěn)定的情況,當(dāng)隨訪指標(biāo)隨時(shí)間變化較快時(shí),則不適合使用該方法。此外,常用的單一填補(bǔ)法還有基線填補(bǔ)法、最差填補(bǔ)法、最優(yōu)填補(bǔ)法等。推薦在正文中根據(jù)研究對(duì)象或研究變量的發(fā)展趨勢(shì)選擇最適宜的方法,并在敏感性分析中選擇不同填補(bǔ)方法比較二者結(jié)果趨勢(shì)的一致性。
問
虛擬變量法
針對(duì)分類變量,可以將缺失值分為單獨(dú)的一類。如性別存在缺失數(shù)據(jù)時(shí),可以在原有分類0、1的基礎(chǔ)上增加分類2。這種方法簡(jiǎn)單、易理解,且保留了變量和樣本的信息,但自變量取值增加,可能對(duì)估計(jì)精度存在影響。
問
均值填補(bǔ)法
文獻(xiàn)中常見均值填補(bǔ)法處理連續(xù)變量,比如體重。如果變量分布不滿足正態(tài)分布,可以使用中位數(shù)填補(bǔ)。這種方法簡(jiǎn)單、便于操作理解,且保留了變量和樣本的信息,但沒有考慮不同樣本間的差異,容易減少樣本間的變異。所以可以通過其他協(xié)變量進(jìn)行一定的改進(jìn),比如缺失值為男性的體重,就可以選擇男性體重的均值。
問
回歸填補(bǔ)法
隨著統(tǒng)計(jì)學(xué)發(fā)展,更推薦使用回歸填補(bǔ)法對(duì)連續(xù)變量進(jìn)行填補(bǔ),比如身高和體重相關(guān)性較強(qiáng),可以據(jù)此構(gòu)建回歸方程,通過身高預(yù)測(cè)缺失的體重值。即在某一列變量存在缺失時(shí),根據(jù)臨床經(jīng)驗(yàn)建立從其他變量到該變量的回歸方程,根據(jù)其他變量計(jì)算缺失變量的預(yù)測(cè)值。該方法同樣比較簡(jiǎn)單,且計(jì)算出來的數(shù)值接近真實(shí)值,優(yōu)于均值填補(bǔ),但仍舊可能低估標(biāo)準(zhǔn)誤。
上文內(nèi)容摘自醫(yī)咖會(huì)專欄課程《缺失值的處理和常見研究類型的統(tǒng)計(jì)分析》,請(qǐng)點(diǎn)擊左下方的“閱讀原文”,觀看完整視頻內(nèi)容。
研究設(shè)計(jì)、統(tǒng)計(jì)分析、論文投稿難題,快聯(lián)系小咖(微信:xys2019ykh)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.