![]()
研究亮點
CKD精準分層:基于PSG表型與XGBoost模型實現慢性腎病(CKD)全病程精準分級,外部驗證展現卓越的泛化性能。
PSG表型解析:揭示夜間醒后難以再次入睡、呼吸暫停時長及HRV等核心預測特征,表明自主神經受損與缺氧負荷是CKD的潛在機制。
研究問題
慢性腎病(CKD)是一種以腎功能逐漸衰退為特征的進行性疾病,常伴隨貧血、心血管疾病及代謝功能障礙,最終可發展為終末期腎病(ESKD),嚴重威脅患者生命與家庭福祉。傳統篩查手段主要依賴血清肌酐、腎小球濾過率(eGFR)等生化指標,不僅診斷滯后,且受限于有創性及醫療資源門檻,難以應用于大規模早期篩查,往往導致患者錯失最佳干預窗口。
與此同時,睡眠障礙(如睡眠呼吸暫停、失眠)在CKD患者中高發。研究表明,睡眠障礙不僅是CKD的風險因素,更通過低氧、炎癥及自主神經失調等機制進一步加劇腎功能損傷。然而,盡管二者病理機制關聯明確,但既往研究多局限于主觀問卷或單一生理信號,未能充分利用大規模、多維度的客觀睡眠數據,這限制了其在CKD精準分級及個性化管理中的應用潛力。
綜上,Erdenebayar Urtnasan團隊提出了一種基于多維度睡眠表型數據的創新篩查框架,試圖驗證:通過集成學習(ensemble learning)算法,能否僅憑PSG睡眠數據精準預測CKD的嚴重程度分期?
研究方法
? 數據集構建
?訓練/測試集:通過傾向性評分匹配納入了基線可比的358名CKD受試者。
?外部驗證集:納入大樣本健康睡眠數據集,共1016例。
? 特征工程
?特征提取:從PSG中提取了1210個臨床表型特征,涵蓋呼吸事件、睡眠結構、心血管信號、肢體運動、血氧飽和度等,全面刻畫了患者的夜間生理圖譜。
?特征篩選:首先,通過卡方檢驗剔除無關變量。隨后,應用基于決策樹模型的特征重要性評分結合交叉驗證的遞歸特征消除(RFE)技術,篩選出最具判別力的關鍵特征子集。
? 模型構建
?算法矩陣:研究團隊采用了四種主流的集成學習算法。
■隨機森林(random forest, RF):通過袋裝法(bagging)降低方差,確立基線穩定性。
■極端梯度提升(XGBoost)、輕量梯度提升(LightGBM)與分類提升(CatBoost):均通過提升法(boosting)來迭代修正錯誤,逼近最優解。三者分別在正則化控制、計算速度及類別特征處理上展現獨特優勢。
? 分類目標:依據eGFR(mL/min/1.73 m2)標準,對受試者進行Stage 1-5的精細化分級,層級越高,CKD病程更嚴重。
■ Stage 1(STG1):大于 90 mL/min/1.73 m2
■ Stage 2(STG2): 60–89 mL/min/1.73 m2
■Stage 3a(STG3a): 45–59 mL/min/1.73 m2
■ Stage 3b(STG3b): 30–44 mL/min/1.73 m2
■ Stage 4(STG4): 15–29 mL/min/1.73 m2
■ Stage 5(STG5):小于 15 mL/min/1.73 m2
? 數據不平衡處理:為解決CKD分期上的數量偏倚問題,在訓練階段使用了SMOTE技術來擴充Stage 5的樣本,但在測試階段使用真實分布,以確保評估結果的臨床真實性。
主要結果
1. 模型分類效能評估
? 四種集成學習模型在CKD多分類任務(Stage 1-5)中均展現出穩健性能。其中,XGBoost模型的綜合表現優于其他三類模型:
■XGBoost:Accuracy = 0.79,AUC = 0.94;
■ CatBoost:Accuracy = 0.61,AUC = 0.94;
■ LightGBM:Accuracy = 0.75,AUC = 0.98;
■ random forest:Accuracy = 0.77,AUC = 0.92;
? 在分層效能上,XGBoost在區分輕度CKD(Stage 2)及CKD重癥階段(Stage 3-5)的表現上均優于其他三類模型(Stage 2:AUC = 0.95;Stage 3-5:AUC > 0.89),證實了其捕捉疾病全病程微細特征的能力。
![]()
圖1 集成學習模型在訓練集上的ROC曲線分析
圖a-d分別展示了隨機森林、XGBoost、LightGBM及CatBoost四種算法在不同CKD分期(Stage 1-5)下的分類效能曲線。AUC數值越高,表明模型區分對應CKD分期的能力越強。
2. 外部數據集泛化驗證
? 四類模型均展現了強勁的泛化能力。特別地,XGBoost模型在區分晚期CKD各階段的表現上均優于其他三類模型(Stage 3b:AUC = 0.97;Stage 4:AUC = 0.98;Stage 5:AUC = 1.00)。
![]()
圖2 集成學習模型在外部驗證集上的ROC曲線分析
圖a-d分別展示了隨機森林、XGBoost、LightGBM及CatBoost四種算法在獨立測試隊列中對各CKD分期的分類效能。
3. 關鍵表型特征解析
? 特征重要性分析(SHAP)顯示,夜間醒后難以再次入睡在XGBoost、LightGBM及CatBoost模型中均為預測CKD分級的核心預測特征。此外,REM期呼吸暫停時長、血氧下降及HRV等指標也占據高權重,揭示了夜間間歇性低氧、自主神經受損與CKD的嚴重程度存在密切關聯。
![]()
圖3 基于SHAP值的CKD關鍵預測特征重要性排序
圖a-d分別展示了隨機森林、XGBoost、LightGBM及CatBoost四種集成學習模型中,預測貢獻度最高的臨床表型特征(按平均SHAP值排序)。
結論與啟示
該研究創新性地構建了基于PSG聯合集成學習模型的無創篩查框架,證實僅憑夜間睡眠生理表型即可精準分級CKD嚴重程度(尤其是XGBoost模型)。特別地,研究揭示夜間醒后難以再次入睡、呼吸暫停時長及HRV等是區分CKD嚴重程度的核心預測特征,強有力地支持了睡眠表型作為反映腎功能狀態的潛在生物標志物的臨床價值。
此外,該模型為臨床提供了一種機會性篩查的新路徑:即利用既有睡眠監測數據早期預警CKD風險,無需額外侵入性檢查。未來,通過將HRV、血氧等關鍵特征移植至智能可穿戴設備,并融合生化、基因等多模態數據,有望實現CKD全病程的低成本居家監測與早期精準預警。
來源 | 神蹤科技
浙大科技園啟真腦機智能產業化基地是在浙大控股集團領導下,由浙江大學科技園發展有限公司與杭州未來科技城管委會共建,圍繞腦機智能產業主體,輻射腦機+生命健康、腦機+智能制造、腦機+新一代信息技術、腦機+新材料等領域的專業化特色產業基地,由杭州啟真未來科技發展有限公司負責全面運營。
基地依托浙江大學在腦機智能方面的學科優勢,以腦機智能作為核心科技支撐,貫徹浙江大學國家大學科技園“有組織科技成果轉化、有靶向科技企業孵化、有體系未來產業培育”的服務體系,致力于打造腦機智能領域具備成果顯示度、區域影響力的產業化高地。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.