本文內容整理自醫咖會《在開始統計分析前,如何對數據進行清洗或轉換?》專欄,小咖針對其中異常值處理相關內容進行了整理,可點擊左下角“閱讀原文”查看完整視頻。
異常值是什么?
在科研中,數據清洗首先要做的就是處理異常值。樣本中存在的一些數值明顯偏離的觀測值,就叫做異常值,這時候需要識別異常值是因為數據錄入錯誤、測量誤差、還是客觀存在的真實數值?如何在保留數據信息的基礎上,識別異常值,并對異常值進行有效處理,是數據清洗中一個非常重要的環節。
在X范圍內,但不在Y范圍內的異常值為Y的異常值,稱為離群值(圖A);反之則為X的異常值,稱為高杠桿點(圖B)。無論是哪種異常值,只要對相關性或回歸分析造成很大影響,就可以稱之為強影響點。圖C的點既是離群值又是高杠桿點,但因其未改變分析結果,并不能稱為高影響點,該數值很有可能是真實存在的。研究中,最需關注的是高影響點。
![]()
怎樣識別異常值?
比較直觀的一個識別異常值的方法是箱圖。箱圖中超出上下限的點均為異常值,并且標注了異常值編號,可以直接觀察相應的患者尋找異常值來源。箱圖中距離箱體邊緣超過1.5倍箱體長度的數據點定義為異常值,超過3倍的數據點稱為極端值。
![]()
如何處理異常值?
有些異常值的影響非常大。如圖,在將異常值刪除后,相關系數和回歸系數均發生了較大的變化。所以需要進行異常值的處理。
![]()
異常值通常有以下四種處理方法:
第一,需要核查數據是否存在收集或錄入錯誤,及時進行重新收集或者更正;
第二,如果異常值客觀存在,符合變化趨勢,可以考慮保留異常值。但可能會導致數值呈現偏態分布,這時可以使用非參數分析方法、用非最極端的值來代替極端異常值,對變量進行轉化(如將數值分類轉化為等級變量),進而縮小異常值帶來的影響。
第三,如果異常值不屬于上述情況,且占比很小,可以考慮直接剔除數據。剔除數據分為剔除該患者所有數據,和僅剔除患者該單元數據,選擇后者需將剔除數據視為缺失值,進行插補,并且報告該數值的詳細情況。
第四,如果異常值極大可能是真實存在的,可以考慮將其納入分析。這種數據通常極具研究性,單獨對該類人群進行挖掘分析可能會得到一些比較意外的結果。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.