美國當地時間 7 月 22 日,馬斯克在社交平臺 X 上發帖稱:“xAI 團隊、X 團隊、英偉達及其他支持公司已于當地時間凌晨 4 時 20 分開始在‘孟菲斯超級集群’上進行訓練。”
![]()
(來源:X)
按照馬斯克的說法,“孟菲斯超級集群”(Memphis Supercluster)堪稱是當前世界上最強大的 AI 訓練集群。
他還表示,孟菲斯超級集群由 10 萬塊英偉達 H100 GPU 組成(采用液冷散熱),在單個 RDMA(遠程直接數據存取,能夠克服網絡傳輸中服務器端數據處理延遲)結構上運行,對 AI 進行訓練。
另外,他在留言區中透露,目標是“在今年 12 月前訓練出各項指標參數都是全球最強大的 AI”(有可能是 Grok 3)。
![]()
(來源:xAI 公司官網)
此前,馬斯克是 OpenAI 的聯合創始人之一,但后來由于公司內部的利益沖突等問題,他在 2018 年退出了這家公司。眼看 AI 浪潮席卷全球,馬斯克自然不甘落后,于是他自立門戶。
2023 年 7 月,馬斯克官宣 xAI 正式成立,其將“理解宇宙的真實本質”作為公司愿景,他希望未來可以用 AI 來幫助人類解決復雜的科學和數學問題并且“理解”宇宙。
由于他本人“光環”的加持,加之 xAI 的團隊成員絕大部分都是來自微軟、DeepMind 等,xAI 儼然成為了 AI 領域“攪局者”一般的存在,對標以 OpenAI 為代表的全球 AI 領域頭部玩家。
去年 11 月,xAI 公司推出旗下名為“Grok”的首個 AI 大模型產品。據官方資料顯示,Grok 可以通過社交平臺 X 實時了解現實世界,而且還可以回答通常被其他大多數 AI 模型拒絕的“敏感”問題,一度被業界稱為“叛逆版的 ChatGPT”。
與此同時,xAI 的吸金能力也讓包括 OpenAI、Anthropic、Inflection AI 等一眾 AI 公司汗顏。據悉,xAI 今年 5 月完成了 60 億美元的 B 輪融資,使該公司估值達到 240 億美元。
作為對比,以 AI 界的“扛把子”OpenAI 為例,成立近 10 年融資總額超 140 億美元,而 xAI 成立僅僅 10 個月便完成了 OpenAI 融資總額的一半。
能獲得如此高的融資金額,一方面得益于馬斯克全球強大的號召力和影響力,另一方面或許是資本看中這家初創公司的潛力及其產品開發迭代進程。
尤其是 2024 年以來,xAI 對 Grok 的開發迭代按下“加速鍵”。今年 3 月,xAI 推出從頭訓練的、包含 3140 億參數的專家混合模型 Grok-1,其參數是 GPT-3.5 的 1.8 倍(GPT-3.5 包含 1750 億參數);緊接著,又推出 128k 長文本的 Grok-1.5,能夠理解長語境和實現高級推理;4 月,推出旗下首款多模態大模型 Grok-1.5V,能夠處理文本、圖表、圖像等內容,且在理解現實世界方面優于其他 AI 模型;就在不久前,馬斯克表示計劃將在今年 8 月推出 Grok-2。
![]()
(來源:xAI 公司官網)
為了能與 OpenAI 的 ChatGPT、谷歌的 Gemini、Meta 的 Llama 等分一杯羹,馬斯克更是“煞費苦心”。今年 5 月,馬斯克就表示要在年底前部署 8.5 萬塊英偉達 H100 GPU,隨后又進行了加碼,并表示計劃部署 10 萬塊英偉達 H100 GPU 來訓練和運行 Grok 的下一個版本。
與此同時,馬斯克還計劃將所有芯片串聯成一個巨型計算機系統“超級計算集群”,地點則選址在美國田納西州的孟菲斯市。
畢竟,從很大程度上來說,Grok-2 開發進程主要是受到芯片算力的掣肘。馬斯克曾坦言:“由于沒有足夠多的 AI 芯片,推遲了 Grok-2 模型的訓練和發布。訓練 Grok-2 大約需要 2 萬塊英偉達 H100 GPU, 而訓練 Grok-2 的下一個版本以及未來更高的版本將需要 10 萬塊 H100 GPU。”
馬斯克所說的這個超級計算集群規模更是空前。簡單對比一下,作為全球規模最龐大的計算集群之一,Meta 在今年 3 月推出了 2 個計算集群用于訓練 Llama 3,每個計算集群都包含 2.4 萬塊英偉達 H100 GPU,xAI 的超級集群規模超出其 4 倍有余。
值得一提的是,近日 Meta 的 Llama 3.1 405B 正式發布,其在多項測試中超越 GPT-4o 和 Claude 3.5 Sonnet,而訓練 Llama 3.1 則使用了多達 1.6 萬塊英偉達 H100 GPU。
顯然,算力已成科技巨頭的必爭之地。據消息稱,Meta 計劃到今年年底采購 35 萬塊英偉達 H100 GPU,將其拓展到 60 萬塊的規模;另外,微軟和 OpenAI 也在計劃投入 1000 億美元打造名為“星際之門”的超級計算機,預計 2030 年完成開發。
不難看出,馬斯克口中“世界上最強大的 AI 訓練集群”的地位似乎維持不了太久。
今年 5 月,馬斯克表示希望超級集群能夠在 2025 年秋季之前運行起來,如今,隨著他此次的官宣按下“點火鍵”,這比原計劃提早了一年多。
![]()
圖|馬斯克親臨超級集群施工現場(來源:X)
然而,該超級集群的建設和使用并沒有得到當地一些組織的認可。據外媒報道,盡管孟菲斯商會團體認同 xAI 公司在該地建設如此大規模的超級集群工廠,但當地反污染組織和其他兩個環保組織對該超級集群的能源和水消耗表示擔憂,并警告稱可能會造成嚴重的“能源負擔”。
這些組織在一封公開信中表示:“預計 xAI 的冷卻塔每天至少需要 100 萬加侖的水。我們鼓勵 xAI 支持對孟菲斯市廢水再利用系統的投資,以減少供水壓力。”
另外,據孟菲斯照明、天然氣和水務公司的首席執行官估計,“xAI 的超級集群工廠每小時可能消耗高達 150 兆瓦的電力,這大致相當于 10 萬戶家庭所需的電力。”
參考資料:
1.https://www.tomshardware.com/pc-components/gpus/elon-musk-fires-up-the-most-powerful-ai-training-cluster-in-the-world-uses-100000-nvidia-h100-gpus-on-a-single-fabric
2.https://www.pcmag.com/news/elon-musk-xai-powers-up-100k-nvidia-gpus-to-train-grok
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.