網易首頁 > 網易號 > 正文申請入駐

云廠商需要有人管起來，CloudFlare又宕機了

2025-11-18 23:11:23　來源: 老馮云數

北京舉報

分享至

最近這些天，云廠家一家接一家的宕機。今天輪到CloudFlare掛掉，導致全球10%以上的網站不可訪問。

這個故障，不用等到廠家發布事后分析報告，無非就是又一個工程師在設計或者操作的時候考慮不周全，導致系統有個漏洞，突然爆發了。

脫離我們的行業慣例，用外部視角看，這是一種不可思議的現象: 一兩個普通的工程師的某一兩個決策，導致全球上百萬的工程師要應對，上億的用戶日常生活被影響到。

如果一個醫生手抖一下，全國一半的病人要集體痛五個小時，或者一個控制塔管制員溜了一下神，半個亞洲的航班都要延誤，那整個社會都會瘋掉。同樣的事情發生在云計算行業，大家卻都不以為奇。這是不正常的。

今年10月28號aws us-east-1的大故障，導致美國一半的線上服務不可用，波及到全球用戶。2023年11月12號，阿里云故障導致中國無數服務不可用。2023年11月27號滴滴基礎設施團隊的故障，導致全國幾百萬司機一夜收不到單。案例數不勝數，隨著云計算的進一步普及，這種集中化只會越來越加劇，故障的影響會越來越大。

盡管這些故障有明顯的溢出效應，但廠家只是當做內部的商業損失處理，從來沒有評估過其更廣泛的社會損失。他們也從來不公布調查報告，更沒有整改承諾，甚至都不提供規避方案。用戶只能被動的承受損失，然后坐等下一次故障發生。

這種大規模的故障中，云廠商的直接損失，和客戶的間接損失可能是1:100甚至1:1000的關系。

我們以浙江政務云為例，其一年云服務開銷是5.5億，假設云服務宕機一天，廠商不過損失150萬人民幣。（請注意這是一個思想實驗，作者并非在評價浙江政務云的可用性）

而這一天，浙江政務云各項服務不可用，需要動員幾萬人手工處理各種公文，這個成本就已經幾千萬了，比云廠商的損失高出一個數量級。

再考慮第三層損失，網上辦事大廳停滯造成民眾無法登記婚姻，延遲辦理房屋過戶，這個損失會上億。

由于監管缺失，云廠商不會在意第二層和第三層的損失，他們的風險計算模型只會考慮區區150萬的損失。如果防護措施超過了50萬，對他們來說，就是一個負回報的投資，畢竟那幾千萬和幾個億的間接損失都是客戶自行承擔的。

我的朋友馮若航一直抱怨云廠家的故障賠償是個笑話。由于云故障，你的網站不可用，你的客戶打爆你的客服電話，你的老板從南極打電話痛罵你，你的工程師取消休假加班加點應對，你一夜不睡盯著云廠狀態頁跟進事態。最后云廠家給了兩百三十七塊八毛五的賠償金，都不夠一個工程師從回龍觀打車到中關村。這種影響和責任的不對稱，營造出一種滑稽的效果。

上面列舉的事故，還只是工程師們的無心之過導致簡單的財產損失。如果有人蓄意搞破壞呢？假設有特殊機構得知某個云廠商托管了國計民生服務，派人打入內部竊取數據，根本不做背景調查的云廠商有任何防范能力嗎？云廠商有數據庫服務，密鑰管理服務，證書管理服務，但歸根結底，這些服務都是人在維護，云廠商有足夠的管理能力防止內部人攻擊嗎？有足夠的審計能力探測和追蹤內部破壞嗎？根據我的經驗，這些問題的答案都是No。

現在是2025年，這種市場原教旨的制度安排，已經過時了。云計算，應該和銀行，電信運營商和發電廠一樣，作為一種社會核心基礎設施受到更嚴格的監管。歐洲的Cyber Resilience Act開了一個先例。中國監管者也應該跟進。

下面是我的一些粗淺建議

1.云廠商服務應該根據區域拆分。中國移動湖南公司的故障不會影響到江西移動的服務，云計算行業也應如此。

2.云廠商應該為其故障付出更高的財務代價，不應該是簡單的客戶服務費用返還。

3.云廠商應該有更多的舉證責任。客戶數據泄露的時候，云廠商應該通過審計手段證明自己的清白，否則就要承擔責任。

4.云廠商應該贊助行業標準的提升。云廠商集中程度非常高，三個大廠占據了70%的市場份額，幾個廠商的水準就是行業的水準。廠商有義務在財務利益之外，積極的促進行業標準提升，就像中國移動當年積極的促進5G落地一樣。

以上是一家之言，希望得到從業者的批評和指教。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.