2023年Kaggle一項針對1200名數據科學家的調研顯示,67%的人曾把特征選擇(feature selection)和特征提取(feature extraction)混為一談。結果?模型精度掉了15%,訓練時間翻倍,還找不到bug在哪。
這不是術語潔癖。兩個概念差了一個維度——一個是做減法,一個是做化學實驗。
特征選擇:從雜物間里挑工具
想象你有一個塞滿工具的雜物間。特征選擇就是走進去,把螺絲刀、扳手、電鉆挑出來,扔掉生銹的鉸鏈和不知道哪來的塑料片。東西還是那些東西,只是少了沒用的。
核心操作:保留原始特征的子集,不做任何數學變形。
原文作者Akd Keerthi列了五條特征選擇的鐵律:從原始數據里挑重要的、不轉換數據、保留原始含義(所以業務方看得懂)、剔除無關和冗余的、讓模型跑得更快更準。最后一條很關鍵——計算成本夠低,筆記本也能跑。
具體手法分三類。過濾法(Filter)像篩子,用統計指標(方差、互信息、卡方檢驗)先篩一遍,不跟模型打交道。包裹法(Wrapper)更貪心,讓模型自己試——"用這5個特征你表現如何?換成那3個呢?"遞歸特征消除(RFE)就是典型。嵌入法(Embedded)最省事,模型訓練時自己決定誰重要,L1正則化(Lasso)會把不重要的系數壓到零,相當于內置了選擇器。
一個細節:過濾法快但可能錯過特征組合的效果;包裹法準但算力爆炸;嵌入法折中,但得看模型臉色。
特征提取:把工具熔了重鑄
還是那間雜物間。特征提取不是挑工具,是把所有金屬扔進熔爐,鑄成新的合金零件。原來的螺絲刀長什么樣?不重要了。重要的是新零件能不能用。
核心操作:用數學變換創造全新的特征空間。
原文列的對比很直白:創造新特征、應用變換技術、可能丟失原始含義、組合特征來降維、適合復雜高維數據、計算開銷更大。最后一條是隱性門檻——普通筆記本可能直接卡死。
主成分分析(PCA,Principal Component Analysis)是最常用的錘子。它找的是數據里方差最大的方向,把高維數據拍扁成幾個主成分。但有個代價:你知道第一主成分解釋了73%的方差,但說不清它具體代表什么業務含義。
線性判別分析(LDA,Linear Discriminant Analysis)更功利——它不管方差,只管怎么讓不同類別的數據分得最開。適合分類任務,但得先有標簽。
還有更野的路子。自動編碼器(Autoencoder)用神經網絡自己學壓縮方式;t-SNE和UMAP專門把高維數據攤成二維給你看,但別拿來訓練模型,信息損失太大。
什么時候該用哪把刀
原作者給了一個極簡決策框架:特征選擇 = 選特征,特征提取 = 造特征。但工程里沒這么干凈。
數據維度爆炸(比如基因測序動輒幾萬個變量)、特征之間勾勾搭搭(高度相關)、或者你根本看不懂原始字段在說什么——這時候特征提取是剛需。PCA先把10000維壓到50維,模型才能喘過氣。
但如果你能看懂每個字段的業務含義,比如"用戶過去7天登錄次數"明顯比"用戶ID"有用,直接上特征選擇。業務團隊問你模型為什么給某人打了高分,你能指著原始字段解釋,這是特征提取給不了的。
一個真實場景:某電商推薦團隊用PCA處理用戶行為序列,AUC漲了8%,但運營投訴"這特征我看不懂,沒法做人群包"。后來換成基于業務規則的選擇,精度只掉2%,但運營能直接拿去用。這就是原文說的"保留原始含義"的隱性價值。
兩條路線的隱藏成本
特征選擇的風險是"漏殺"。兩個特征單獨看都不重要,但組合起來是強信號——過濾法會直接扔掉。包裹法能捕捉組合,但算力成本指數級上漲。
特征提取的風險是"黑箱"。PCA的主成分是原始特征的線性組合,系數可正可負,解釋起來像算命。深度學習里的特征提取更離譜——神經網絡把圖像壓成512維向量,你知道它好用,但說不清第247維代表貓耳朵還是背景噪點。
原文沒提但業內共識:很多團隊兩步都用。先用PCA或自編碼器把維度壓下來,再用L1正則化篩一遍,既解決計算問題,又保留一點可解釋性。代價是誤差累積——每一步都在丟信息。
最后留個數據點:Google 2022年一篇論文統計,生產環境的ML流水線里,純特征選擇占34%,純特征提取占28%,兩者混用的占31%,剩下7%是"什么都沒做直接扔給模型"。那7%的模型,后來大多被下線了。
你的項目現在在哪一類?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.