英偉達推出開放AI模型,包括面向自動駕駛的Alpamayo-R1以及用于機器人學和仿真的Cosmos工具套件。
![]()
英偉達正以一項大膽舉措拓展人工智能研究的前沿。該公司于本周一宣布推出開放的物理和數字AI模型,這些模型有望重塑自動駕駛汽車、機器人學和語音處理的未來。
公司在一流人工智能會議NeurIPS上公布了這些突破,標志著開源AI開發進入新時代。其中一大亮點是Alpamayo-R1(AR1),這是全球首個面向自動駕駛的開放推理視覺-語言-行動模型。
AR1旨在將思維鏈推理與路徑規劃相結合,幫助車輛以類似人類的判斷力應對復雜路況。英偉達表示:"AR1通過分解場景并逐步推理來實現這一點。"
該模型評估可能的行駛軌跡,并利用上下文數據選擇最安全的路線,從而使其能夠處理行人密集的十字路口、并排停放的車輛或即將到來的車道封閉等復雜情況。
開放獲取是英偉達戰略的核心。基于英偉達Cosmos Reason構建的AR1,可供研究人員針對非商業應用進行定制。與預訓練版本相比,強化學習后期訓練已顯示出該模型推理能力的顯著提升。
推理驅動自主
AR1已在GitHub和Hugging Face平臺發布,同時部分訓練數據包含在英偉達物理AI開放數據集中。研究人員還可利用AlpaSim框架評估模型性能。
除了AR1,英偉達的Cosmos平臺還提供了一系列用于物理AI開發的工具。其中包括:為自動駕駛仿真生成激光雷達數據的LidarGen;用于清理神經重建的Omniverse NuRec Fixer;創建機器人行為規則的Cosmos Policy;以及在真實模擬環境中訓練人形機器人的ProtoMotions3。
全球的開發者和研究人員已開始試用這些模型。Voxel51、1X、Figure AI、Foretellix、Gatik、Oxa、PlusAI和X-Humanoid等英偉達生態系統合作伙伴正在自動駕駛和機器人學項目中應用Cosmos基礎模型。蘇黎世聯邦理工學院的研究人員也在使用Cosmos進行3D場景創建,并在NeurIPS上展示了他們的研究成果。
數字AI擴展
在數字領域,英偉達正在增強其Nemotron工具包。亮點包括多說話人自動語音識別模型MultiTalker Parakeet,以及執行實時說話人日志化的Sortformer。Nemotron還引入了基于推理的AI安全模型,以及用于強化學習和特定領域AI開發的合成數據集。
其他值得注意的更新包括:能夠跨語音、音樂和聲音進行推理的大型音頻語言模型Audio Flamingo 3,以及在不犧牲性能的情況下壓縮混合模型的Minitron-SSM。英偉達研究人員還展示了專為高效語言模型推理和低延遲優化的Jet-Nemotron和Nemotron-Flash。
英偉達指出:"長期強化學習是一種延長模型訓練時間的技術。這種方法產生的模型在推理能力上持續超越基礎模型。"
通過這些發布,英偉達持續將開源AI推向新高度,為研究人員、開發者和自主系統創新者提供強大工具。該公司的努力得到了Artificial Analysis的認可,該機構將英偉達的Nemotron系列評為AI生態系統中最開放的模型之一。
如果朋友們喜歡,敬請關注“知新了了”!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.