![]()
- Top 10 智能開源模型均使用混合專家模型架構。
- Kimi K2 Thinking、DeepSeek-R1、Mistral Large 3 等模型在 NVIDIA Grace Blackwell 機架級擴展系統上運行速度提升 10 倍。
如今,幾乎任一前沿模型的內部結構都采用混合專家(MoE)模型架構,這種架構旨在模擬人腦的高效運作機制。
正如大腦會根據任務激活特定區域,MoE 模型將工作分配給各個專門的專家,并在每個 AI token 的生成過程中只激活與之相關的專家。這樣一來,無需成比例增加計算量,就能夠實現更快速、更高效的 token 生成。
業界已認識到這一優勢。在獨立 AI 基準測試機構 Artificial Analysis(AA)的榜單上,Top 10 智能開源模型均采用 MoE 架構,包括深度求索的 DeepSeek-R1、月之暗面的 Kimi K2 Thinking、OpenAI 的 gpt-oss-120B 以及 Mistral AI 的 Mistral Large 3。
然而,大規模部署 MoE 模型并同時保持高性能向來極具挑戰。NVIDIA Grace Blackwell 機架級擴展系統通過軟硬件的極致協同設計,將硬件與軟件優化相結合,以實現性能和效率最大化,從而使規模化部署 MoE 模型變得切實可行且簡便直接。
Kimi K2 Thinking MoE 模型在 AA 榜單被評為當前最智能的開源模型。它在 NVIDIA Grace Blackwell 機架級擴展系統上的性能較在 NVIDIA HGX Hopper 上實現了 10 倍的飛躍。基于 DeepSeek-R1 和 Mistral Large 3 MoE 模型展現的卓越性能,這一突破性進展表明 MoE 架構正在成為前沿模型的首選架構,同時也印證了 NVIDIA 全棧推理平臺是釋放其全部潛力的關鍵所在。
什么是 MoE,為何它已成為前沿模型的標準:通過有選擇性地僅調用最重要的專家模型,MoE 模型在不增加計算成本的前提下實現了更高的智能水平和適應性。這使其成為高效 AI 系統的基石,這類系統專為“每美元性能”與“每瓦特性能”而優化,能夠在單位資金和單位能耗下產出顯著更高的智能價值。鑒于這些優勢,MoE 迅速成為前沿模型的首選架構也就不足為奇。今年以來,已有超過 60% 的開源 AI 模型采用這一架構。自 2023 年初至今,該架構更推動模型智能水平實現近 70 倍的飛躍式增長,不斷推動 AI 突破能力疆界。
通過極致協同設計突破 MoE 擴展瓶頸:前沿的 MoE 模型體量龐大且結構復雜,無法部署在單塊 GPU 上。要運行這些模型,必須將專家分布在多塊 GPU 上,這種技術稱為“專家并行”。即使在 NVIDIA Hopper 這樣的高性能平臺上,部署 MoE 模型仍會遇到一些挑戰。NVIDIA Grace Blackwell 是一款機架級擴展系統,搭載的 72 塊 NVIDIA Blackwell GPU 協同工作,可以如同單一系統般運行。MoE 模型能夠利用這種設計將專家并行擴展到遠超以往的極限——將專家分布在多達 72 塊 GPU 的更大規模集群中,這種架構方法直接解決了 MoE 的擴展瓶頸。
性能體現在每瓦特性能上:NVIDIA Grace Blackwell 機架級擴展系統能夠高效擴展復雜的元學習模型,實現每瓦性能 10 倍的提升。這一性能飛躍不僅是標準上的突破,它使 token 收入可以實現 10 倍增長,徹底改變了 AI 在能效受限、成本敏感型數據中心中的規模化經濟模型。
大規模驅動智能:NVIDIA Grace Blackwell 機架級擴展系統意在為除 MoE 模型之外的工作負載也提供強大的性能。將這一原理擴展至大規模部署——即多個應用程序和智能體為眾多用戶提供服務的情境——將釋放出全新的效率水平。這種方法無需為每個智能體或應用程序重復構建龐大的 AI 模型,而是建立一個共享的專家池供所有系統調用,確保每個請求都能精準路由至對應的專家。
以上為摘要內容,點擊鏈接閱讀完整內容:
混合專家模型驅動最智能的前沿 AI 模型,在 NVIDIA Blackwell 系統上運行速度提升 10 倍 | NVIDIA 英偉達博客
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.