最近這些天,云廠家一家接一家的宕機。今天輪到CloudFlare掛掉,導致全球10%以上的網站不可訪問。
這個故障,不用等到廠家發布事后分析報告,無非就是又一個工程師在設計或者操作的時候考慮不周全,導致系統有個漏洞,突然爆發了。
脫離我們的行業慣例,用外部視角看,這是一種不可思議的現象: 一兩個普通的工程師的某一兩個決策,導致全球上百萬的工程師要應對,上億的用戶日常生活被影響到。
如果一個醫生手抖一下,全國一半的病人要集體痛五個小時,或者一個控制塔管制員溜了一下神,半個亞洲的航班都要延誤,那整個社會都會瘋掉。同樣的事情發生在云計算行業,大家卻都不以為奇。這是不正常的。
今年10月28號aws us-east-1的大故障,導致美國一半的線上服務不可用,波及到全球用戶。2023年11月12號,阿里云故障導致中國無數服務不可用。2023年11月27號滴滴基礎設施團隊的故障,導致全國幾百萬司機一夜收不到單。案例數不勝數,隨著云計算的進一步普及,這種集中化只會越來越加劇,故障的影響會越來越大。
盡管這些故障有明顯的溢出效應,但廠家只是當做內部的商業損失處理,從來沒有評估過其更廣泛的社會損失。他們也從來不公布調查報告,更沒有整改承諾,甚至都不提供規避方案。用戶只能被動的承受損失,然后坐等下一次故障發生。
這種大規模的故障中,云廠商的直接損失,和客戶的間接損失可能是1:100甚至1:1000的關系。
我們以浙江政務云為例,其一年云服務開銷是5.5億,假設云服務宕機一天,廠商不過損失150萬人民幣。(請注意這是一個思想實驗,作者并非在評價浙江政務云的可用性)
而這一天,浙江政務云各項服務不可用,需要動員幾萬人手工處理各種公文,這個成本就已經幾千萬了,比云廠商的損失高出一個數量級。
再考慮第三層損失,網上辦事大廳停滯造成民眾無法登記婚姻,延遲辦理房屋過戶,這個損失會上億。
由于監管缺失,云廠商不會在意第二層和第三層的損失,他們的風險計算模型只會考慮區區150萬的損失。如果防護措施超過了50萬,對他們來說,就是一個負回報的投資,畢竟那幾千萬和幾個億的間接損失都是客戶自行承擔的。
我的朋友馮若航一直抱怨云廠家的故障賠償是個笑話。由于云故障,你的網站不可用,你的客戶打爆你的客服電話,你的老板從南極打電話痛罵你,你的工程師取消休假加班加點應對,你一夜不睡盯著云廠狀態頁跟進事態。最后云廠家給了兩百三十七塊八毛五的賠償金,都不夠一個工程師從回龍觀打車到中關村。這種影響和責任的不對稱,營造出一種滑稽的效果。
上面列舉的事故,還只是工程師們的無心之過導致簡單的財產損失。如果有人蓄意搞破壞呢?假設有特殊機構得知某個云廠商托管了國計民生服務,派人打入內部竊取數據,根本不做背景調查的云廠商有任何防范能力嗎?云廠商有數據庫服務,密鑰管理服務,證書管理服務,但歸根結底,這些服務都是人在維護,云廠商有足夠的管理能力防止內部人攻擊嗎?有足夠的審計能力探測和追蹤內部破壞嗎?根據我的經驗,這些問題的答案都是No。
現在是2025年,這種市場原教旨的制度安排,已經過時了。云計算,應該和銀行,電信運營商和發電廠一樣,作為一種社會核心基礎設施受到更嚴格的監管。歐洲的Cyber Resilience Act開了一個先例。中國監管者也應該跟進。
下面是我的一些粗淺建議
1.云廠商服務應該根據區域拆分。中國移動湖南公司的故障不會影響到江西移動的服務,云計算行業也應如此。
2.云廠商應該為其故障付出更高的財務代價,不應該是簡單的客戶服務費用返還。
3.云廠商應該有更多的舉證責任。客戶數據泄露的時候,云廠商應該通過審計手段證明自己的清白,否則就要承擔責任。
4.云廠商應該贊助行業標準的提升。云廠商集中程度非常高,三個大廠占據了70%的市場份額,幾個廠商的水準就是行業的水準。廠商有義務在財務利益之外,積極的促進行業標準提升,就像中國移動當年積極的促進5G落地一樣。
以上是一家之言,希望得到從業者的批評和指教。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.