David Poudel最近搭了個客戶流失預測模型。7,032條電信數據喂進去,Logistic Regression跑完,屏幕跳出80%準確率。看起來挺漂亮,對吧?
他差點就信了。直到發現數據集里73.5%的客戶本來就沒流失——這意味著一個只會說"不會流失"的傻瓜模型,準確率也有73.5%。換句話說,他的"智能"模型只比瞎猜強了不到7個百分點。
「A model that predicts nothing useful can still look 73% accurate.」Poudel在復盤里寫道。真正該問的不是"總體多準",而是"找到我們想找的人了嗎"。
他用混淆矩陣拆解:精度0.65意味著模型喊"要流失"時,只有65%真的說中;召回率更低,大量真流失客戶被漏掉。ROC-AUC 0.82看著體面,但業務場景里,漏掉一個流失客戶的成本可能是誤報的十倍。
Poudel把這次經歷寫成教程,標題就叫《Your model says 80% accuracy. But is it actually good?》。評論區最高贊是個老數據科學家的自嘲:「我職業生涯前三年都在匯報假準確率,老板還夸我模型穩。」
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.