網易首頁 > 網易號 > 正文申請入駐

全球20%互聯網“癱瘓”3小時！Cloudflare史詩級宕機，ChatGPT、X無一幸免

2025-11-19 19:03:50　來源: CSDN

北京舉報

分享至

整理 | 鄭麗媛

出品 | CSDN（ID：CSDNnews）

在許多人還以為只是自己 Wi-Fi 出問題時，一場席卷全球的網絡大面積故障，悄然讓半個互聯網陷入了罕見的混亂：

X（原 Twitter）打不開、ChatGPT 無法響應、連監控宕機的 Downdetector 自己都掛了……而這場風暴的中心，正是那個幾乎包裹了全球五分之一互聯網的基礎設施服務商：Cloudflare。

一覺醒來，互聯網“碎了一地”：從社交媒體到游戲服務器全面崩潰

根據媒體報道，Cloudflare 故障在美東時間早上 6:20（北京時間 19:20）左右開始，最先爆出來的是大量應用訪問延遲、白屏、無法登錄等問題。

受影響的名單長到令人咋舌——不僅有 X、ChatGPT，這場崩潰還幾乎跨越了社交網絡、生產力工具、流媒體、在線游戲、交通服務等所有類別：

● X：報錯信息顯示“內部服務器錯誤源于 Cloudflare 的異常”；

● ChatGPT：彈出提示“請解除對 cloudflare.com challenge 的攔截后繼續訪問”；

● Canva（在線設計工具）、Indeed（招聘平臺）、Uber（打車軟件）、Spotify（音樂播放平臺）均出現訪問異常；

● 《英雄聯盟》服務器出現連接問題；

● Archive of Our Own（AO3）短暫無法訪問；

● 大量媒體網站也全部掛掉，包括但不限于Axios、The Information和Politico。

甚至，連人們用來確認網站是否掛掉的 Downdetector 本身都無法正常加載——這無疑是本次事件最為戲劇性的一幕。

數不清的用戶在社交媒體上不斷發出抱怨，有人甚至調侃：“這已經不只是網站掛了，是我的一天也跟著宕機了。”

為什么 Cloudflare 一掛，互聯網就跟著“抖三抖”？

要理解這場事故有多嚴重，先得知道 Cloudflare 是什么。

簡單來說，Cloudflare 是目前全球最大的互聯網安全與 CDN（內容分發網絡）提供商之一，它負責的事情主要包括：

● WAF、防火墻、DDoS 防護

● 驗證訪問者是否為人類（Bot Mitigation）

● CDN 加速

● 邊緣網絡與 Zero Trust 服務

● 網站流量代理與高級緩存

Cloudflare 官方稱，全球 20% 的網站都在使用它的服務。換句話說：互聯網的很大一部分流量，都要經過 Cloudflare 的基礎設施，而它一旦出問題，成千上萬個網站就會同時“受牽連”。

正因如此，網絡服務監測機構 NetBlocks 負責人 Alp Toker 才會說這次事故表示 Cloudflare 基礎設施遭遇了“災難級的中斷”：“令人震驚的是，這幾年為了躲避 DDoS 攻擊，互聯網越來越多的服務都把 Cloudflare 作為前置層，這同時也讓它成為了整個互聯網的最大單點故障之一。”

真相曝光：一個“變得太大”的配置文件，引發連鎖崩潰

故障爆發后，Cloudflare 很快進行了技術調查。

Cloudflare 官方發言人 Jackie Dutton 表示，這次宕機源于一個用于管理威脅流量的自動生成配置文件：“該文件的體積超出了預期，引發了處理流量的軟件系統崩潰，從而影響了 Cloudflare 多項核心服務。”

聽起來是“小問題”？但在 Cloudflare 這種體量下，小問題可以瞬間變成“超級多米諾骨牌”。

在后續的技術復盤中，Cloudflare 解釋這個“體積變大的文件”源于一次數據庫權限變更：在一次 ClickHouse 權限的變更中，團隊原本希望“讓所有用戶都能準確看到自己有權訪問的數據表元數據”。而這個本該是常規的權限完善，卻引發了一場蝴蝶效應。

據了解，Cloudflare 的“機器人管理（Bot Management）”系統，需要依賴一份不斷更新的“特征配置文件”。這份特征文件每幾分鐘更新一次，并自動同步至整個網絡，使其能夠應對互聯網流量的變化。但問題來了：由于底層 ClickHouse 查詢行為的權限變更，導致生成的文件中出現了大量重復的“特征”行。

“該特征文件的大小隨后翻倍，而這超出預期的特征文件被傳播至構成我們網絡的所有機器。這些設備上運行的網絡流量路由軟件會讀取這份特征文件，確保機器人管理系統能及時應對不斷變化的威脅。但該軟件對特征文件的大小設有限制，而此次文件大小翻倍后超出了這一限制，最終導致了軟件故障。”

于是災難鏈條啟動：“過大的配置文件”→Cloudflare 處理威脅流量的模塊開始崩潰→相關服務陸續降級→故障波及整個網絡層→大量依賴 Cloudflare 的網站出現連鎖訪問異常。

事后，Cloudflare CTO Dane Knecht 在 X 上公開道歉，并承認此次事件是他們的問題：

“我不會拐彎抹角：我知道，我們辜負了客戶和整個互聯網的信任。一個隱藏的 Bug 在我們進行一次例行配置變更后被觸發，引發崩潰，最終導致我們的大量網絡與服務大面積降級。這不是攻擊，是我們的失誤。”

Dane Knecht 還強調，這是一次“不可接受的事故”。

故障持續三個多小時后，Cloudflare 于美東時間上午 9:42在狀態頁發布更新：“修復已實施，我們認為事件已經得到解決。但我們仍在持續監控，確保所有服務完全恢復正常。”

雖然服務陸續恢復，但全球部分地區依然出現訪問波動，一些企業的 API 業務也在恢復期遇到零星錯誤，這在大型服務“重啟”過程中并不少見。值得注意的是，受影響的還包括部分企業的內部服務與自動化流程，因此要真正恢復正常可能還需要花費一點時間。

一個月“崩”三次，互聯網的脆弱性再次被暴露

回顧這短短一個月內，已經出現了至少三次“全球級事故”：

（1）AWS 大規模宕機，讓 Fortnite、Alexa、Snapchat 以及數千網站全線掉線。

（2）隨后微軟 Azure 也遭遇類似問題，致使其大半的云生態服務受到影響，眾多依賴 Azure 的企業服務也跟著遭殃。

（3）而本次 Cloudflare 的連鎖崩潰，影響范圍也波及全球。

對此，ESET 網絡安全專家 Jake Moore 點出了關鍵問題：“最近頻繁出現的大型宕機，再次凸顯了我們對這些脆弱網絡的高度依賴。”他指出，企業往往別無選擇，只能依賴 Cloudflare、微軟、亞馬遜，因為 “替代方案實在太少”。

也就是說：如今的互聯網比我們想象的更加集中、同時也更加脆弱。而這些支撐著大半互聯網的龐大中心，只要有一次“普通失誤”，都可能瞬間變成一場全球級災難。

https://blog.cloudflare.com/18-november-2025-outage/

https://www.cnbc.com/2025/11/18/cloudflare-down-outage-traffic-spike-x-chatgpt.html

【活動分享】2025 年是 C++ 正式發布以來的 40 周年，也是全球 C++ 及系統軟件技術大會舉辦 20 周年。這一次，C++ 之父 Bjarne Stroustrup 將再次親臨「2025 全球 C++及系統軟件技術大會」現場，與全球頂尖的系統軟件工程師、編譯器專家、AI 基礎設施研究者同臺對話。

本次大會共設立現代 C++ 最佳實踐、架構與設計演化、軟件質量建設、安全與可靠、研發效能、大模型驅動的軟件開發、AI 算力與優化、異構計算、高性能與低時延、并發與并行、系統級軟件、嵌入式系統十二大主題，共同構建了一個全面而立體的知識體系，確保每一位參會者——無論是語言愛好者、系統架構師、性能優化工程師，還是技術管理者——都能在這里找到自己的坐標，收獲深刻的洞見與啟發。詳情參考官網：https://cpp-summit.org/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.