快科技12月29日消息,雖然NVIDIA目前在AI訓練領域無可匹敵,但面對日益增長的即時推理需求,其正籌劃一項足以改變行業格局的"秘密武器"。
據AGF透露,NVIDIA計劃在2028年推出的Feynman(費曼)架構GPU中,整合來自Groq公司的LPU(語言處理單元),以大幅提升AI推理性能。
Feynman架構將接替Rubin架構,采用臺積電最先進的A16(1.6nm)制程,為了突破半導體物理限制,NVIDIA計劃利用臺積電的SoIC混合鍵合技術,將專為推理加速設計的LPU單元直接堆疊在GPU之上。
![]()
這種設計類似于AMD的3D V-Cache技術,但NVIDIA堆疊的不是普通緩存,而是專為推理加速設計的LPU單元。
設計的核心邏輯在于解決SRAM的微縮困境,在1.6nm這種極致工藝下,直接在主芯片集成大量SRAM成本極高且占用空間。
通過堆疊技術,NVIDIA可以將運算核心留在主芯片,而將需要大量面積的SRAM獨立成另一層芯片堆疊上去。
臺積電的A16制程一大特色是支持背面供電技術,這項技術可以騰出芯片正面的空間,專供垂直信號連接,確保堆疊的LPU能以極低功耗進行高速數據交換。
結合LPU的"確定性"執行邏輯,未來的NVIDIA GPU在處理即時AI響應(如語音對話、實時翻譯)時,速度將實現質的飛躍。
不過這也存在兩大潛在挑戰,分別是散熱問題和CUDA兼容性難題,在運算密度極高的GPU 再加蓋一層芯片,如何避免"熱當機"是工程團隊的頭號難題。
同時LPU強調"確定性"執行順序,需要精確的內存配置,而CUDA生態則是基于硬件抽象化設計的,要讓這兩者完美協同,需要頂級的軟件優化。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.