網易首頁 > 網易號 > 正文申請入駐

谷歌工程師花3年踩坑：砍掉70%測試后，故障率反而漲了40%

2026-04-06 19:07:05　來源: 賽博蘭博

北京舉報

分享至

2023年，某頭部云廠商的CI（持續集成）團隊做了個大膽決定：把運行了8年的回歸測試套件從12萬條砍到3.5萬條。理由很充分——測試跑太慢，工程師等反饋等到崩潰。結果6個月后，生產環境故障率飆升40%，回滾次數翻倍。他們以為自己在"優化"，實際上是在拆除安全網的同時蒙上了眼睛。

這不是孤例。InfoQ最新一篇來自谷歌工程師James Bornefelt Westfall的技術文章，用一組內部數據揭開了這個反直覺的現象：測試套件縮減的平均回報周期只有18個月，之后隱性成本會指數級反彈。換句話說，你今天省下的服務器時間，明天可能要用十倍的生產事故來償還。

Westfall在文中打了個比方：縮減測試套件就像把醫院的體檢項目從50項砍到15項——報告確實出得快了，但癌癥早期篩查也被一起砍掉了。更麻煩的是，被砍掉的測試往往是"看起來冗余"的集成測試和端到端測試，而這些恰恰是捕捉跨系統故障的最后防線。

為什么"少即是多"在CI里是個陷阱

傳統優化思路很簡單：測試越多越慢，越慢越影響開發效率，所以得砍。這個邏輯漏掉了一個關鍵變量——故障信號的統計顯著性。Westfall指出，現代分布式系統的故障模式大多是"長尾型"的：單條測試的失敗率可能只有0.1%，但當幾百條相關測試同時運行時，它們的集體行為會形成一個可識別的模式。

砍掉70%的測試，等于把樣本量從"能檢測異常波動"直接拉到"噪音級別"。一個真實案例：某團隊縮減套件后，某個緩存失效的bug在測試環境里潛伏了4個月，期間每次單測都"恰好"通過——因為覆蓋那條代碼路徑的測試被標記為"低優先級"移除了。直到生產環境流量峰值觸發，故障影響波及200萬用戶。

Westfall的團隊做過量化分析：在縮減后的套件中，需要連續5次以上運行才能以95%置信度檢測到的回歸缺陷，占比從12%上升到34%。這意味著大量問題變成了"薛定諤的bug"——你跑一遍測試覺得沒事，實際上只是沒抽到那張壞彩票。

隨機性不是敵人，是工具

那如果不砍測試，怎么解決"跑太慢"的問題？Westfall提出的方案有點反常識：擁抱隨機性，但用時間序列分析馴服它。

具體做法是：不再執著于"哪條測試失敗了"，而是追蹤"測試行為隨時間的變化趨勢"。每條測試的歷史輸出（通過/失敗、耗時、資源占用）被建模為一個隨機過程。當某個測試的統計特征出現漂移——比如失敗率從0.1%跳到0.3%，或者耗時標準差突然增大——系統會標記為"需要關注"。

這種方法的妙處在于，它把"測試通過"這個二元結果，轉化成了連續的概率分布。即使單條測試在單次運行中"通過"，它的行為模式可能已經暴露了系統健康的微妙變化。Westfall的團隊在谷歌內部部署這套系統后，能在測試套件規模不變的情況下，把回歸缺陷的平均發現時間從14天縮短到3天。

更激進的做法是"多上下文模式匹配"——利用測試套件內部的冗余性。想象你有100條測試都間接覆蓋了某個數據庫連接池，正常情況下它們的通過/失敗模式應該有一定相關性。如果某天其中30條突然表現出一致的異常（比如都慢了200ms），即使每條單獨看都"在閾值內"，集體信號也能高置信度地指向一個潛在回歸。這種思路把"冗余測試"從負擔變成了資產。

真正的速度從哪來

Westfall沒有回避一個現實：測試套件確實會膨脹，確實需要優化。但他區分了"偽優化"和"真優化"。砍測試是前者，架構層面的改造才是后者。

他列了幾條經過驗證的路徑。并行化是最直接的——把串行執行的測試拆分到多個執行環境，線性擴展吞吐。連續報告則是讓測試在運行過程中實時輸出結果，而不是等全部跑完才給反饋，工程師可以在測試還在跑時就開始定位問題。硬件在環（Hardware-in-the-loop）模擬允許部分測試用虛擬設備替代真實硬件，既保留測試 fidelity（保真度）又降低資源爭搶。

還有一個容易被忽視的點：mock（模擬）的邊界該畫在哪。Westfall觀察到很多團隊要么mock太多（測了個寂寞），要么mock太少（測試變成資源黑洞）。他的建議是把mock集中在"外部依賴的不可控延遲"上，而不是核心業務邏輯。一個精準設計的mock能把端到端測試的耗時從小時級壓到分鐘級，同時保留對關鍵交互路徑的覆蓋。

這些改造的前期投入明顯高于"刪測試"，但Westfall引用了一組內部數據：采用架構優化而非套件縮減的團隊，3年后的CI相關事故率比對照組低62%。這個差距在統計上顯著，且隨時間擴大。

文章結尾，Westfall提到了一個還在實驗中的方向：用輕量級探針替代部分回歸測試。不是砍掉覆蓋，而是把部分驗證邏輯嵌入到生產環境的影子流量中。這個想法本身并不新鮮，但他強調了一個約束條件——探針的部署必須和回歸測試形成互補，而不是替代關系。用他的話來說："你不能因為裝了煙霧報警器，就把家里的滅火器扔掉。"

這套方法論在谷歌內部的推廣并非一帆風順。Westfall透露，最初有團隊質疑時間序列分析的"誤報率"——畢竟從"測試失敗"變成"測試行為異常"，判斷標準變模糊了。他們花了8個月調參，才把誤報率從初期的23%壓到可接受的5%以下。這個細節或許比任何技術方案都更值得注意：新工具的價值往往不在于概念多漂亮，而在于你愿意花多少工程成本把它磨到能用。

國內某大廠SRE負責人讀完這篇文章后，在內部論壇留了一條評論："我們2022年砍了60%的集成測試，2024年花了整整一年補回去。Westfall的數據和我們踩的坑完全對得上——測試債務的利息，比技術債務還高。"

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.