
作者 | Craig Risi
譯者 | 張衛濱
Cloudflare 最近發布了一項名為“Code Orange: Fail Small”的詳細韌性計劃,以防止過去六周內連續發生的兩次重大網絡中斷導致的大規模服務中斷再次發生。該計劃優先考慮受控發布、改進故障模式處理以及簡化應急流程,以使其全球網絡更加穩健,并減少因配置錯誤而造成的脆弱性。
Cloudflare 的網絡在 2025 年 11 月 18 日 和 12 月 5 日 遭受了兩次嚴重的中斷。第一次事件導致流量交付中斷了約 2 小時 10 分鐘,而第二次事件則影響了其網絡背后約 28% 的應用程序,持續了約 25 分鐘。這些事件發生在即時的全球配置更改之后,盡管這些更改旨在提高安全性或機器人檢測能力,但它們在數百個數據中心迅速傳播了錯誤的設置,從而引發了廣泛的服務故障。
“Code Orange: Fail Small”計劃規定,配置更改必須以受控的、分階段的方式進行,類似于 Cloudflare 現有的軟件發布流程 Health Mediated Deployment(HMD),其中包括分階段驗證和自動回滾機制。歷史上,配置更新(如 DNS 記錄或安全規則)會通過內部的 Quicksilver 系統 在幾秒鐘內向全球范圍傳播,當錯誤的更改傳播過快時,這就成為了一個隱患。在新策略下,配置更新需要通過監控門禁并采用漸進式部署,以便在問題影響到大范圍基礎設施之前盡早發現它們并降低影響。
Cloudflare 還計劃審查和改進網絡流量處理系統中的所有故障模式,旨在確保每個組件在錯誤條件下都能做出可預測的響應,并且不會將故障級聯到不相關的服務。這包括驗證關鍵產品之間的接口契約,并建立合理的默認值,以便即使依賴的子系統發生故障,流量也能繼續流動。
除此之外,該公司正在徹底改革緊急訪問程序和內部工具的訪問權限,以減少在過去的中斷事件中拖慢事件響應速度的循環依賴。增強的培訓和簡化的應急訪問協議旨在幫助工程師更快地應對關鍵故障,同時不損害安全防護措施。
Cloudflare 的計劃正在逐步推進,通過單獨的更新以改善整體的性韌性,而不是一次性地進行大規模更新。該公司預計到 2026 年第一季度末,所有生產系統都將使用增強后的 HMD 配置流程,故障模式將得到更好的定義和測試,應急響應訪問也將得到改進。
這些努力是在日益嚴格的審查背景下進行的。Cloudflare 的中斷事件引起了廣泛的關注,事件影響了 LinkedIn、Zoom 和 Shopify 等主要網站,并引發了關于集中式互聯網基礎設施風險的討論。盡管社區的一些 反應 表達了不滿,但許多討論平臺上的用戶也對 Cloudflare 坦誠承認問題及其結構性改進的承諾表示了歡迎。
Cloudflare 正在努力重建信心,“Code Orange: Fail Small”計劃凸顯了該公司向更謹慎的部署實踐的轉變,并對故障的出現做出更強的預期,以便在問題升級為擾亂互聯網生態系統大范圍的全球中斷之前將其控制住。
Cloudflare Launches ‘Code Orange: Fail Small’ Resilience Plan After Multiple Global Outages(https://www.infoq.com/news/2026/01/cloudflare-resilience-plan/)
聲明:本文為 InfoQ 翻譯,未經許可禁止轉載。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.