當地時間 12 月 2 日,亞馬遜云計算服務(AWS)在美國拉斯維加斯舉辦的年度云計算盛會“AWS re:Invent 2025”上發布了全新的自研Trainium3 芯片,以及采用 Trainium3 芯片的 Trainium3 UltraServer 服務器。
根據首席執行官Matt Garman的介紹,新款 Trainium3 芯片的性能是前代產品的 4 倍,并采用臺積電 3 納米工藝制造。每個芯片都配備了 144 GB 的 HBM3E 內存,內存帶寬為 4.9 TB/s,提供 2.52FP8 PFLOPs的算力。
![]()
(來源:社交媒體 X)
Trainium3UltraServer 單機最多集成144Trainium3 芯片,總共配備 20.7 TB HBM3E、706 TB/s 內存帶寬,可提供最高 362 FP8 PFLOPS 的算力,時延降低 4 倍,可更快訓練超大模型,并大規模支撐推理服務。
其計算性能比 Trainium2 UltraServer 高出 4.4 倍,能源效率高出 4 倍,內存帶寬也高出近 4 倍。在使用 OpenAI 的開源大模型 GPT-OSS 進行測試時,Trainium3UltraServer 的單芯片吞吐量可提升 3 倍,推理響應速度提升 4 倍。這意味著企業可以在更小的基礎設施規模下應對峰值需求,顯著優化用戶體驗,同時降低每次推理請求的成本。
AWS 以垂直整合方式打造Trainium3UltraServer,從芯片架構到軟件棧全鏈路協同。核心之一是新一代網絡基礎設施,用于消除傳統分布式 AI 計算的通信瓶頸:NeuronSwitch-v1 提供 2 倍 的 UltraServer 內部帶寬;增強型Neuron Fabric將芯片間通信延遲降低至 10 微秒以內。
這種強大的配置使得它非常適合處理下一代最前沿的 AI 工作負載,例如:訓練大規模AI模型,可以將復雜模型的訓練時間從數月縮短至數周;處理高并發的 AI 推理請求,以低延遲實時處理數百萬用戶的請求,例如智能對話、視頻生成等;運行特定復雜任務,如智能體系統、專家混合模型和大規模強化學習等。
包括 Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh、Splash Music 等客戶,已經借助 Trainium將訓練和推理成本降低最多 50%。其中,Decart 在實時生成式視頻方面實現了 4 倍推理速度提升,成本僅為 GPU 的一半;而 Amazon Bedrock 已經在生產環境中使用 Trainium3 提供服務。
![]()
(來源:社交媒體 X)
對于需要更大規模的客戶,EC2 UltraCluster 3.0 可連接數千臺 UltraServer,構成擁有多達 100 萬顆 Trainium 芯片的集群——是上一代的 10 倍。這使得此前完全不可能的任務成為現實:從在萬億級 token 數據集上訓練多模態模型,到為數百萬并發用戶提供實時推理服務。
自研芯片是亞馬遜的重要戰略項目之一,目標是避免過度依賴昂貴的英偉達硬件。而對于 Trainium3 來說,一個關鍵問題在于:有多少大型外部客戶會愿意采用這套硬件。尤其是在谷歌旗下的 TPU 持續搶占 AI 芯片市場的背景下。
另一個重要變量是 AI 初創公司 Anthropic 的芯片采購分配。今年 10 月,Anthropic 宣布與谷歌達成合作,將使用多達 100 萬顆谷歌 TPU 芯片,以實現除亞馬遜和英偉達之外的供應多元化。
Anthropic 表示,亞馬遜仍是其主要訓練合作伙伴與云服務提供商。該公司預計,到今年年底,將使用超過 100 萬顆 Trainium 2 芯片,其中包括運行在擁有近 50 萬顆 Trainium 處理器的 Project Rainier 超級計算機之上。
此外,AWS 也預告了下一代 AI 訓練芯片Trainium4的研發進展。其在各方面都將實現大幅性能躍升,包括處理性能(FP4)至少提升 6 倍、FP8 性能提升 3 倍、內存帶寬提升 4 倍。結合持續的軟硬件優化,其實際性能提升將遠超基準數值。
其中,FP8 提升 3 倍是一次基礎性飛躍。模型訓練至少快 3 倍,推理吞吐量也至少提升 3 倍,并且隨著軟件優化將獲得進一步加成。FP8 已成為現代 AI 工作負載在精度與效率之間的行業標準格式。
為進一步提升單機擴展性能,Trainium4 將支持NVIDIA NVLink Fusion高速互聯技術。該能力將使 Trainium4、AWS Graviton 處理器及 Elastic Fabric Adapter(EFA)能在統一MGX機架內協同工作,為客戶提供支持 GPU 與 Trainium 的成本更優、性能更強的機架級 AI 基礎設施。
這一整合將構建一個靈活、高性能的平臺,優化應對未來對訓練與推理都極其苛刻的 AI 工作負載。
https://www.aboutamazon.com/news/aws/trainium-3-ultraserver-faster-ai-training-lower-cost
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.