![]()
編輯|冷貓
話不多說,先給大家看個視頻。
![]()
這流暢的游戲動作,簡直堪比是技術流游戲玩家的實況畫面。尤其是茶杯頭的躲避跳躍踩靈魂一氣呵成,讓我們自愧不如。我要有這么快的反應和操作水準,玩絲之歌真不至于紅溫。
最令人震撼的是,上面視頻里的操作完完全全是 AI 操作出來的。
和傳統的游戲自動化腳本不同,這是一個完整的通用的大模型,不僅限于單一游戲的操作,能夠玩遍市面上幾乎全部的游戲類型。
于是,讓我們正式介紹主角,來自英偉達的最新開源基礎模型 NitroGen
該模型的訓練目標是玩 1000 款以上的游戲 —— 無論是 RPG、平臺跳躍、吃雞、競速,還是 2D、3D 游戲,統統不在話下!

模型直接以游戲視頻幀作為輸入,輸出真實的手柄操作信號,天然適配所有支持手柄的游戲。NitroGen 支持后訓練,意味著當它面對一款從未見過的新游戲時,并不需要從零開始學習規則,只需少量微調或輕量適配,就能迅速上手,真正具備了跨游戲泛化的潛力。
![]()
- 項目地址: https://nitrogen.minedojo.org
- 論文地址: https://nitrogen.minedojo.org/assets/documents/nitrogen.pdf
- 代碼鏈接: https://github.com/MineDojo/NitroGen
- 預訓練模型: https://huggingface.co/nvidia/NitroGen
- 數據集: https://huggingface.co/datasets/nvidia/NitroGen
模型配方
英偉達研究團隊發現,原本為機器人設計的 GR00T N1.5 架構,只需極少改動,就能適配機制差異極大的各類游戲。
NitroGen 的設計融合了三項關鍵要素:
1.互聯網規模的視頻 - 動作數據集:通過從公開可獲取的游戲視頻中,自動提取玩家操作,構建而成;
2.多游戲基準評測環境:用于系統性地評估模型在不同游戲之間的泛化能力;
3.統一的視覺 - 動作策略模型:采用大規模行為克隆進行訓練。
![]()
總體概覽
NitroGen 由三個核心組件構成:
1.多游戲基礎智能體
一個通用的視覺 - 動作模型,能夠接收游戲觀測(如視頻幀),并生成對應的手柄操作指令,實現跨多款游戲的零樣本(zero-shot)游玩能力,同時也可作為基礎模型,用于對新游戲進行進一步微調與適配。
2.通用模擬器
一個環境封裝層,使任意商業游戲都可以通過 Gymnasium API 進行控制,從而統一不同游戲的交互接口,支持大規模訓練與評測。
3.互聯網規模的數據集
目前規模最大、類型最豐富的開源游戲數據集之一,來源于 40,000 小時的公開游戲視頻,覆蓋 1,000 余款游戲,并自動提取并生成了對應的動作標簽。
互聯網規模多游戲視頻動作數據集
通過從屏幕顯示中提取玩家的實時手柄操作來獲取動作信息,這類顯示被稱為 「輸入疊加層(input overlays)」。
![]()
研究團隊收集了大量公開可獲取的、帶有「手柄操作疊加顯示」的游戲視頻。這些疊加層具有高度多樣性,給數據處理帶來了顯著挑戰:不同內容創作者使用的手柄類型差異很大(如 Xbox、PlayStation 或其他控制器),疊加層的透明度各不相同,同時視頻壓縮還會引入各種視覺偽影。
![]()
對于每一段收集到的視頻,研究團隊會采樣 25 幀圖像,并使用 SIFT 與 XFeat 特征,與精心整理的模板集合進行關鍵點匹配,以此定位手柄在畫面中的位置。隨后,基于模板匹配的結果,對視頻中的手柄區域進行定位與裁剪。
數據整理的過程本身就很有意思:研究團隊發現,玩家非常樂于展示自己的操作技巧,常常會在視頻中疊加實時顯示的手柄輸入。于是團隊訓練了一個分割模型,自動檢測并提取這些手柄顯示區域,將其轉換為「專家級動作標簽」。
隨后,研究團隊會把這一區域在視頻中遮擋掉,防止模型通過「偷看答案」的方式走捷徑。在訓練過程中,GR00T N1.5 的一個變體使用擴散 Transformer,從 4 萬小時的像素級輸入直接學習到動作輸出。
![]()
NitroGen 數據集在不同游戲與類型上的分布情況
在完成數據篩選后,該數據集共包含 40,000 小時的游戲視頻,覆蓋 1,000 余款游戲。
(a)單游戲數據時長分布
從每款游戲對應的視頻時長來看,數據覆蓋范圍廣泛:846 款游戲擁有 超過 1 小時的數據,91 款游戲擁有 超過 100 小時的數據,其中還有 15 款游戲的累計數據量 超過 1,000 小時。
(b)游戲類型分布
從游戲類型來看,動作 RPG 占比最高,占總時長的 34.9%;其次是 平臺跳躍類,占 18.4%;再次是 動作冒險類,占 9.2%;其余數據分布在多種不同游戲類型之中。
超強操作
實驗結果表明,NitroGen 在多種不同類型的游戲場景中均表現出較強能力,包括:
- 3D 動作游戲中的戰斗對抗,
- 2D 平臺跳躍游戲中的高精度操作,
- 以及程序生成世界中的探索任務。
![]()
NitroGen 500M 模型在不同游戲上的預訓練結果
使用 Flow-Matching 的 GR00T 架構,在完整的 NitroGen 數據集上訓練了一個 5 億參數的統一模型。評估在行為克隆(behavior cloning)預訓練完成后進行。對于每一款游戲,研究團隊在 3 個不同任務上進行測試,每個任務執行 5 次 rollout,并統計平均任務完成率。
在未進行任何額外微調的情況下,盡管模型僅基于噪聲較大的互聯網數據集進行訓練,NitroGen 仍然能夠在多種游戲中完成非平凡(non-trivial)的任務,覆蓋了不同的視覺風格(如 3D、2D 俯視視角、2D 橫向卷軸)以及多樣的游戲類型(平臺跳躍、動作 RPG、Roguelike 等)。
![]()
后訓練實驗結果
更重要的是,NitroGen 能夠有效遷移到從未見過的新游戲。在相同任務設定下,其任務成功率相比從零開始訓練的模型,最高可實現 52% 的相對提升
這項工作能夠殺死比賽。
通用機器人的基礎
NitroGen 只是一個起點,模型能力仍有很大的爬坡空間。研究團隊在這次工作中有意只聚焦于無需深度思考、快速反應的「玩家直覺式運動控制」。
據英偉達機器人總監 Jim Fan 所說,他們的目標,是打造通用型具身智能體:不僅能掌握現實世界的物理規律,還能適應一個由無數模擬環境構成的「多元宇宙」中的所有可能物理規則。
這就是為什么許許多多的交互大模型都對電子游戲的操作念念不忘。電子游戲具備了相當完整的世界和交互體系,每個游戲都是一個非常復雜完善的模擬環境,模型能夠實現通用的游戲操作,離操作機器人進行真實世界交互也就將更進一步。
英偉達已開源發布該模型的數據集、評測套件以及模型權重,以推動通用具身智能體方向的進一步研究。
今天,機器人學是 AI 中「最難問題的超集」。明天,它可能只會成為具身 AGI 巨大潛在空間中的一個子集、一個點。
那時,只需要用自然語言提示,請求一個機器人「游戲手柄」即可。
文中視頻鏈接:https://mp.weixin.qq.com/s/J0OgAnGDM1VAsDfYNnzXnA
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.