國產AI前沿陣地正迎來突破性進展。
近日,繼scaleX萬卡超集群在國家超算互聯網核心節點規模化落地,光合組織緊鑼密鼓的在當地召開“國產萬卡算力賦能大模型發展研討會暨聯合攻關啟動儀式”。
沒錯,國產萬卡超集群真正要大規模“用”起來了。而且據說落地目標直指AI頭部領域——萬億參數大模型。
![]()
這兩年,隨著AI大模型參數規模大幅躍升,算力基礎設施建設也在同步跟注加碼。
盡管集群式算力體系相對復雜,而且AI用戶對多元化算力需求迫切,供給側廠商仍是通過開放的架構、統一的標準,走出了一條高效通用的“大算力普惠”之路。前兩天爆火的scaleX萬卡超集群就是一個樣板。
當然,光說不練不行,萬億參數大模型是萬超計算集群最好的試金石。
從技術應用層面來看,當數據量足夠大時,AI大模型的參數越多,模型精度也越好。同時,參數量增加也必然造成計算量增加。
當AI大模型達到千億、萬億級參數,訓練和推理過程中就需要大量矩陣運算和浮點計算。對于高內存帶寬與容量、低延遲與高并發處理能力等技術挑戰非常大。
尤為關鍵的一點是,很多大模型玩家在算力選型中非常慎重。因為很多智算中心之間存在技術路線差異,甚至部分技術架構難以兼容主流生態,異構遷移過程中往往步步雷區。
某國產大模型技術負責人指出,由于芯片硬件結構差異和浮點計算的不確定性,疊加大模型參數量大導致精度誤差被隱藏的現象,因此技術人員往往需要較長的時間來驗證算子正確性和模型的收斂性。
另外,解決效果問題后,還會遇到性能損失的問題。
“因為不同計算精度和shape場景下的算子最優實現并不一致,一些國產算力的泛化能力還不夠強,所以導致模型移植后的開箱性能往往無法達到理論算力上限,需要進一步開展深入的性能優化工作等。”上述人士表示。
毋庸置疑,“國產萬卡超集群”擁抱“萬億參數大模型”是一個歷史性機遇,但在如何賦能大模型實際應用場景上,依然需要在供需兩端形成共識。
光合組織召開此次會議,顯然是要錨定大算力和大模型應用需求協同發力。據悉,包含算力基礎設施提供商和國產大模型廠商在內,產業上下游在會上達成了聯合攻關方案。
一方面是基于開放的架構和統一的標準,參考scaleX萬卡超集群系統樣板,進一步打破算力應用難點堵點,將國產大算力資源真正作用到大參數模式場景實戰中。
另一方面是通過生態協同,在大模型應用中形成供需驗證、反饋、優化的循環機制,實現軟硬件一體化協同攻關,深度賦能大模型訓推方面的實踐指引與前沿探索。
這就是要在成功經驗的基礎上,大力推動規模化落地復制了。scaleX作為AI計算開放路線下的首個萬卡集群成果,此前就驗證了產業鏈開放協同的戰略價值。現在開放計算路線進一步向大模型需求側延伸,無疑將進一步形成供需兩端協同共振的開放式創新格局。
大膽預測一下,在全球化AI竟備中,萬卡計算集群與萬億參數模型是絕對的前沿陣地。
隨著國產AI計算突破能力邊界,并在大模型應用場景中發揮出更強的生態協同效能,中國AI產業正在打開格局,走上一條真正的“彎道超車”突圍路徑。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.