NVIDIA 研究團隊近日開源發布了 NitroGen——一個以“玩游戲”為核心訓練目標的基礎模型,覆蓋 1000 多款不同類型的游戲,包括 RPG、平臺跳躍、吃雞、賽車,以及 2D / 3D 等多種形態。
但其目標并非打造“更強的游戲 AI”,而是探索一種更具普適性的具身智能訓練范式:在大規模模擬環境中,學習跨物理規則的通用運動控制能力。
研究團隊發現,最初為機器人場景設計的 GR00T N1.5 架構,在幾乎不做結構性修改的情況下,就可以遷移到游戲環境中,并適配機制差異極大的任務。這一結果再次驗證了“苦澀教訓(Bitter Lesson)”在具身智能領域的有效性:
一、一個 4 萬+ 小時、高質量、來自真實世界的公開視頻游戲數據集;
二、一個用于連續運動控制、能力極強的基礎模型;
三、一個 Gym API,可以把任何游戲二進制程序封裝起來跑 rollout。
其中,數據集本身也是 NitroGen 的關鍵底座之一:該數據集規模龐大且種類繁多——包含 800 多款游戲,每款游戲的數據時長均超過 1 小時;另有 15 款游戲的數據時長均超過 1000 小時。游戲類型涵蓋動作角色扮演、平臺跳躍、動作冒險、體育、類銀河戰士惡魔城、Roguelike 等。
在數據構建層面,團隊采用了一種頗具工程巧思的方法。大量游戲玩家會在視頻中疊加實時手柄輸入,用于展示操作技巧。研究人員訓練了一個分割模型,自動識別并提取這些手柄顯示區域,將其轉化為“專家級動作標簽”;同時對該區域進行遮擋,避免模型通過視覺捷徑“作弊”。在此基礎上,GR00T N1.5 的一個變體通過 Diffusion Transformer,直接學習從像素到動作的映射關系。
值得注意的是,NitroGen完全開源:包括預訓練權重、完整動作數據集、訓練與推理代碼,以及一份技術細節充分的白皮書。
在更宏觀的視角下,研究者提出了一個頗具挑釁意味的判斷:“今天,機器人學幾乎是所有困難 AI 問題的‘超集’;明天,它可能只是具身 AGI 巨大潛在空間中的一個子集。 ”
如果這一判斷成立,未來的機器人控制,或許將不再是手工設計的系統工程,而更像是一次“prompt”:按需生成、即取即用。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.