
整理 | 鄭麗媛
出品 | CSDN(ID:CSDNnews)
在許多人還以為只是自己 Wi-Fi 出問題時,一場席卷全球的網絡大面積故障,悄然讓半個互聯網陷入了罕見的混亂:
X(原 Twitter)打不開、ChatGPT 無法響應、連監控宕機的 Downdetector 自己都掛了……而這場風暴的中心,正是那個幾乎包裹了全球五分之一互聯網的基礎設施服務商:Cloudflare。
![]()
![]()
一覺醒來,互聯網“碎了一地”:從社交媒體到游戲服務器全面崩潰
根據媒體報道,Cloudflare 故障在美東時間早上 6:20(北京時間 19:20)左右開始,最先爆出來的是大量應用訪問延遲、白屏、無法登錄等問題。
受影響的名單長到令人咋舌——不僅有 X、ChatGPT,這場崩潰還幾乎跨越了社交網絡、生產力工具、流媒體、在線游戲、交通服務等所有類別:
● X:報錯信息顯示“內部服務器錯誤源于 Cloudflare 的異常”;
● ChatGPT:彈出提示“請解除對 cloudflare.com challenge 的攔截后繼續訪問”;
● Canva(在線設計工具)、Indeed(招聘平臺)、Uber(打車軟件)、Spotify(音樂播放平臺)均出現訪問異常;
● 《英雄聯盟》服務器出現連接問題;
● Archive of Our Own(AO3)短暫無法訪問;
● 大量媒體網站也全部掛掉,包括但不限于Axios、The Information和Politico。
甚至,連人們用來確認網站是否掛掉的 Downdetector 本身都無法正常加載——這無疑是本次事件最為戲劇性的一幕。
數不清的用戶在社交媒體上不斷發出抱怨,有人甚至調侃:“這已經不只是網站掛了,是我的一天也跟著宕機了。”
![]()
為什么 Cloudflare 一掛,互聯網就跟著“抖三抖”?
要理解這場事故有多嚴重,先得知道 Cloudflare 是什么。
簡單來說,Cloudflare 是目前全球最大的互聯網安全與 CDN(內容分發網絡)提供商之一,它負責的事情主要包括:
● WAF、防火墻、DDoS 防護
● 驗證訪問者是否為人類(Bot Mitigation)
● CDN 加速
● 邊緣網絡與 Zero Trust 服務
● 網站流量代理與高級緩存
Cloudflare 官方稱,全球 20% 的網站都在使用它的服務。換句話說:互聯網的很大一部分流量,都要經過 Cloudflare 的基礎設施,而它一旦出問題,成千上萬個網站就會同時“受牽連”。
![]()
正因如此,網絡服務監測機構 NetBlocks 負責人 Alp Toker 才會說這次事故表示 Cloudflare 基礎設施遭遇了“災難級的中斷”:“令人震驚的是,這幾年為了躲避 DDoS 攻擊,互聯網越來越多的服務都把 Cloudflare 作為前置層,這同時也讓它成為了整個互聯網的最大單點故障之一。”
![]()
真相曝光:一個“變得太大”的配置文件,引發連鎖崩潰
故障爆發后,Cloudflare 很快進行了技術調查。
Cloudflare 官方發言人 Jackie Dutton 表示,這次宕機源于一個用于管理威脅流量的自動生成配置文件:“該文件的體積超出了預期,引發了處理流量的軟件系統崩潰,從而影響了 Cloudflare 多項核心服務。”
聽起來是“小問題”?但在 Cloudflare 這種體量下,小問題可以瞬間變成“超級多米諾骨牌”。
在后續的技術復盤中,Cloudflare 解釋這個“體積變大的文件”源于一次數據庫權限變更:在一次 ClickHouse 權限的變更中,團隊原本希望“讓所有用戶都能準確看到自己有權訪問的數據表元數據”。而這個本該是常規的權限完善,卻引發了一場蝴蝶效應。
據了解,Cloudflare 的“機器人管理(Bot Management)”系統,需要依賴一份不斷更新的“特征配置文件”。這份特征文件每幾分鐘更新一次,并自動同步至整個網絡,使其能夠應對互聯網流量的變化。但問題來了:由于底層 ClickHouse 查詢行為的權限變更,導致生成的文件中出現了大量重復的“特征”行。
“該特征文件的大小隨后翻倍,而這超出預期的特征文件被傳播至構成我們網絡的所有機器。這些設備上運行的網絡流量路由軟件會讀取這份特征文件,確保機器人管理系統能及時應對不斷變化的威脅。但該軟件對特征文件的大小設有限制,而此次文件大小翻倍后超出了這一限制,最終導致了軟件故障。”
于是災難鏈條啟動:“過大的配置文件”→Cloudflare 處理威脅流量的模塊開始崩潰→相關服務陸續降級→故障波及整個網絡層→大量依賴 Cloudflare 的網站出現連鎖訪問異常。
事后,Cloudflare CTO Dane Knecht 在 X 上公開道歉,并承認此次事件是他們的問題:
“我不會拐彎抹角:我知道,我們辜負了客戶和整個互聯網的信任。一個隱藏的 Bug 在我們進行一次例行配置變更后被觸發,引發崩潰,最終導致我們的大量網絡與服務大面積降級。這不是攻擊,是我們的失誤。”
![]()
Dane Knecht 還強調,這是一次“不可接受的事故”。
故障持續三個多小時后,Cloudflare 于美東時間上午 9:42在狀態頁發布更新:“修復已實施,我們認為事件已經得到解決。但我們仍在持續監控,確保所有服務完全恢復正常。”
雖然服務陸續恢復,但全球部分地區依然出現訪問波動,一些企業的 API 業務也在恢復期遇到零星錯誤,這在大型服務“重啟”過程中并不少見。值得注意的是,受影響的還包括部分企業的內部服務與自動化流程,因此要真正恢復正常可能還需要花費一點時間。
![]()
一個月“崩”三次,互聯網的脆弱性再次被暴露
回顧這短短一個月內,已經出現了至少三次“全球級事故”:
(1)AWS 大規模宕機,讓 Fortnite、Alexa、Snapchat 以及數千網站全線掉線。
(2)隨后微軟 Azure 也遭遇類似問題,致使其大半的云生態服務受到影響,眾多依賴 Azure 的企業服務也跟著遭殃。
(3)而本次 Cloudflare 的連鎖崩潰,影響范圍也波及全球。
對此,ESET 網絡安全專家 Jake Moore 點出了關鍵問題:“最近頻繁出現的大型宕機,再次凸顯了我們對這些脆弱網絡的高度依賴。”他指出,企業往往別無選擇,只能依賴 Cloudflare、微軟、亞馬遜,因為 “替代方案實在太少”。
也就是說:如今的互聯網比我們想象的更加集中、同時也更加脆弱。而這些支撐著大半互聯網的龐大中心,只要有一次“普通失誤”,都可能瞬間變成一場全球級災難。
https://blog.cloudflare.com/18-november-2025-outage/
https://www.cnbc.com/2025/11/18/cloudflare-down-outage-traffic-spike-x-chatgpt.html
【活動分享】2025 年是 C++ 正式發布以來的 40 周年,也是全球 C++ 及系統軟件技術大會舉辦 20 周年。這一次,C++ 之父 Bjarne Stroustrup 將再次親臨「2025 全球 C++及系統軟件技術大會」現場,與全球頂尖的系統軟件工程師、編譯器專家、AI 基礎設施研究者同臺對話。
本次大會共設立現代 C++ 最佳實踐、架構與設計演化、軟件質量建設、安全與可靠、研發效能、大模型驅動的軟件開發、AI 算力與優化、異構計算、高性能與低時延、并發與并行、系統級軟件、嵌入式系統十二大主題,共同構建了一個全面而立體的知識體系,確保每一位參會者——無論是語言愛好者、系統架構師、性能優化工程師,還是技術管理者——都能在這里找到自己的坐標,收獲深刻的洞見與啟發。詳情參考官網:https://cpp-summit.org/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.