![]()
2023年,日本雅虎和韓國LINE合并成LY Corporation時,沒人想到他們的云架構會是一張如此瘋狂的拼圖:LINE那邊4個OpenStack集群養著13萬臺虛擬機,雅虎日本這邊更夸張——160多個集群、2.7萬臺服務器、16萬虛擬機,像164個各自為政的小王國。
現在他們要把這一切,塞進一個叫"Flava"的新云里。目標數字很刺激:500臺主機,9000臺虛擬機,1個集群。
164:1的壓縮比,不是技術炫技,是還債
LY云基礎設施負責人井上隆太郎(Ryuutarou Inoue)上周在行業會議上攤牌:老系統的問題不是不夠大,是"改得太狠"。
「過去對OpenStack做了太多定制修改,升級變得極其困難。」井上的原話像一份技術債的懺悔錄。雅虎日本的YNW云和LINE的Verda云,各自經歷了多年迭代,補丁疊補丁,到最后連安全更新都不敢隨便打。
Flava的策略是反向操作:盡量貼近上游OpenStack版本,自定義補丁壓到最低。需要新功能?先貢獻給社區,等合并進主線再用。
這個選擇意味著放棄"我能改"的快感,換取"我能升"的自由。
井上算過賬:定期升級不再是噩夢,安全補丁和新功能能持續流入。對一家擁有3億月活用戶的公司來說,這比任何單點性能優化都值錢。
三支柱設計:接受機器會壞,而不是假裝它不會
Flava的架構文檔里有三個關鍵詞,讀起來像給基礎設施做心理咨詢:
第一,假設故障必然發生。不在底層硬件上過度堆砌高可用保障,把彈性往上層推。
第二,可觀測性拉滿。Prometheus、Grafana、內部儀表盤層層監控,發現異常就往下鉆——內核追蹤、抓包,直到定位根因。
第三,自動化處理日常故障。井上的團隊每天 somewhere 都有硬件壞掉,手動處理不現實。現在從故障檢測、報修數據中心現場、到更換硬件重新入集群,大部分流程已自動化。
「但一些任務和不規則的故障模式,仍然需要工程師手動介入。」井上留了后路,「未來我們打算用大語言模型處理這些需要決策的復雜流程。」
這句話透露的野心比技術細節更值得玩味:LLM不只是寫代碼的助手,他們要讓它參與運維決策。
技術選型的隱藏線索:Envoy、eBPF和Ceph
Flava的技術棧清單里,有幾個名字值得圈出來。
Envoy作為代理層,說明他們對服務網格或至少東西向流量管理有統一規劃。eBPF和XDP(快速數據路徑)的組合,暗示網絡性能是重點優化對象——這對LINE這種實時通訊服務很關鍵。FRRouting負責路由,Ceph做存儲,全是開源社區的主流項目,沒有冷門賭局。
這個選型策略和OpenStack的"上游優先"一脈相承:不押寶小眾方案,降低長期維護成本。
但代價也明顯。從16萬虛擬機砍到9000臺,不是簡單的"合并",是大量業務必須重構或下線。LY沒有公開具體遷移進度,但井上提到的"定期升級"和"持續可用",暗示這是一場馬拉松而非沖刺。
背景壓力:政府盯著,用戶數據不能再漏
LY Corporation有充分的緊迫感。2023年合并前后,LINE多次曝出用戶信息泄露事件,日本政府直接下令整改。對一家同時運營支付、電商、即時通訊的超級平臺,基礎設施的可靠性和合規性不是技術問題,是生存問題。
164個集群的碎片化狀態,在審計眼里就是164個潛在漏洞入口。統一成1個集群,表面是技術整合,深層是風險管控的標準化。
井上強調的"最小化自定義補丁",也有合規層面的考量:上游代碼經過更廣泛的審查和測試,比內部魔改的版本更容易通過安全審計。
這場遷移的終局會如何?井上在演講結尾沒有給時間表,只留了一句:「我們每天都在某處經歷硬件故障。」
這句話既是現狀描述,也是設計哲學的注腳——不是追求永不故障,而是追求故障時的從容。當3億用戶的消息、支付、購物請求流經這500臺主機組成的單一集群時,LY賭的是:簡化架構帶來的可維護性,能跑贏復雜度帶來的性能優勢。
如果賭對了,這將是OpenStack社區近年最漂亮的規模化案例之一;如果賭錯了,9000臺虛擬機承載3億用戶的密度,會讓每一次故障都變成頭條新聞。
井上的團隊現在最想知道的可能是:當LLM真的接手那些"需要決策的復雜流程"時,它面對的第一個重大故障會是什么?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.