![]()
編輯|冷貓
話不多說,先給大家看個視頻。
![]()
這流暢的游戲動作,簡直堪比是技術(shù)流游戲玩家的實況畫面。尤其是茶杯頭的躲避跳躍踩靈魂一氣呵成,讓我們自愧不如。我要有這么快的反應(yīng)和操作水準,玩絲之歌真不至于紅溫。
最令人震撼的是,上面視頻里的操作完完全全是 AI 操作出來的。
和傳統(tǒng)的游戲自動化腳本不同,這是一個完整的通用的大模型,不僅限于單一游戲的操作,能夠玩遍市面上幾乎全部的游戲類型。
于是,讓我們正式介紹主角,來自英偉達的最新開源基礎(chǔ)模型 NitroGen
該模型的訓(xùn)練目標是玩 1000 款以上的游戲 —— 無論是 RPG、平臺跳躍、吃雞、競速,還是 2D、3D 游戲,統(tǒng)統(tǒng)不在話下!

模型直接以游戲視頻幀作為輸入,輸出真實的手柄操作信號,天然適配所有支持手柄的游戲。NitroGen 支持后訓(xùn)練,意味著當它面對一款從未見過的新游戲時,并不需要從零開始學(xué)習(xí)規(guī)則,只需少量微調(diào)或輕量適配,就能迅速上手,真正具備了跨游戲泛化的潛力。
![]()
- 項目地址: https://nitrogen.minedojo.org
- 論文地址: https://nitrogen.minedojo.org/assets/documents/nitrogen.pdf
- 代碼鏈接: https://github.com/MineDojo/NitroGen
- 預(yù)訓(xùn)練模型: https://huggingface.co/nvidia/NitroGen
- 數(shù)據(jù)集: https://huggingface.co/datasets/nvidia/NitroGen
模型配方
英偉達研究團隊發(fā)現(xiàn),原本為機器人設(shè)計的 GR00T N1.5 架構(gòu),只需極少改動,就能適配機制差異極大的各類游戲。
NitroGen 的設(shè)計融合了三項關(guān)鍵要素:
1.互聯(lián)網(wǎng)規(guī)模的視頻 - 動作數(shù)據(jù)集:通過從公開可獲取的游戲視頻中,自動提取玩家操作,構(gòu)建而成;
2.多游戲基準評測環(huán)境:用于系統(tǒng)性地評估模型在不同游戲之間的泛化能力;
3.統(tǒng)一的視覺 - 動作策略模型:采用大規(guī)模行為克隆進行訓(xùn)練。
![]()
總體概覽
NitroGen 由三個核心組件構(gòu)成:
1.多游戲基礎(chǔ)智能體
一個通用的視覺 - 動作模型,能夠接收游戲觀測(如視頻幀),并生成對應(yīng)的手柄操作指令,實現(xiàn)跨多款游戲的零樣本(zero-shot)游玩能力,同時也可作為基礎(chǔ)模型,用于對新游戲進行進一步微調(diào)與適配。
2.通用模擬器
一個環(huán)境封裝層,使任意商業(yè)游戲都可以通過 Gymnasium API 進行控制,從而統(tǒng)一不同游戲的交互接口,支持大規(guī)模訓(xùn)練與評測。
3.互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)集
目前規(guī)模最大、類型最豐富的開源游戲數(shù)據(jù)集之一,來源于 40,000 小時的公開游戲視頻,覆蓋 1,000 余款游戲,并自動提取并生成了對應(yīng)的動作標簽。
互聯(lián)網(wǎng)規(guī)模多游戲視頻動作數(shù)據(jù)集
通過從屏幕顯示中提取玩家的實時手柄操作來獲取動作信息,這類顯示被稱為 「輸入疊加層(input overlays)」。
![]()
研究團隊收集了大量公開可獲取的、帶有「手柄操作疊加顯示」的游戲視頻。這些疊加層具有高度多樣性,給數(shù)據(jù)處理帶來了顯著挑戰(zhàn):不同內(nèi)容創(chuàng)作者使用的手柄類型差異很大(如 Xbox、PlayStation 或其他控制器),疊加層的透明度各不相同,同時視頻壓縮還會引入各種視覺偽影。
![]()
對于每一段收集到的視頻,研究團隊會采樣 25 幀圖像,并使用 SIFT 與 XFeat 特征,與精心整理的模板集合進行關(guān)鍵點匹配,以此定位手柄在畫面中的位置。隨后,基于模板匹配的結(jié)果,對視頻中的手柄區(qū)域進行定位與裁剪。
數(shù)據(jù)整理的過程本身就很有意思:研究團隊發(fā)現(xiàn),玩家非常樂于展示自己的操作技巧,常常會在視頻中疊加實時顯示的手柄輸入。于是團隊訓(xùn)練了一個分割模型,自動檢測并提取這些手柄顯示區(qū)域,將其轉(zhuǎn)換為「專家級動作標簽」。
隨后,研究團隊會把這一區(qū)域在視頻中遮擋掉,防止模型通過「偷看答案」的方式走捷徑。在訓(xùn)練過程中,GR00T N1.5 的一個變體使用擴散 Transformer,從 4 萬小時的像素級輸入直接學(xué)習(xí)到動作輸出。
![]()
NitroGen 數(shù)據(jù)集在不同游戲與類型上的分布情況
在完成數(shù)據(jù)篩選后,該數(shù)據(jù)集共包含 40,000 小時的游戲視頻,覆蓋 1,000 余款游戲。
(a)單游戲數(shù)據(jù)時長分布
從每款游戲?qū)?yīng)的視頻時長來看,數(shù)據(jù)覆蓋范圍廣泛:846 款游戲擁有 超過 1 小時的數(shù)據(jù),91 款游戲擁有 超過 100 小時的數(shù)據(jù),其中還有 15 款游戲的累計數(shù)據(jù)量 超過 1,000 小時。
(b)游戲類型分布
從游戲類型來看,動作 RPG 占比最高,占總時長的 34.9%;其次是 平臺跳躍類,占 18.4%;再次是 動作冒險類,占 9.2%;其余數(shù)據(jù)分布在多種不同游戲類型之中。
超強操作
實驗結(jié)果表明,NitroGen 在多種不同類型的游戲場景中均表現(xiàn)出較強能力,包括:
- 3D 動作游戲中的戰(zhàn)斗對抗,
- 2D 平臺跳躍游戲中的高精度操作,
- 以及程序生成世界中的探索任務(wù)。
![]()
NitroGen 500M 模型在不同游戲上的預(yù)訓(xùn)練結(jié)果
使用 Flow-Matching 的 GR00T 架構(gòu),在完整的 NitroGen 數(shù)據(jù)集上訓(xùn)練了一個 5 億參數(shù)的統(tǒng)一模型。評估在行為克隆(behavior cloning)預(yù)訓(xùn)練完成后進行。對于每一款游戲,研究團隊在 3 個不同任務(wù)上進行測試,每個任務(wù)執(zhí)行 5 次 rollout,并統(tǒng)計平均任務(wù)完成率。
在未進行任何額外微調(diào)的情況下,盡管模型僅基于噪聲較大的互聯(lián)網(wǎng)數(shù)據(jù)集進行訓(xùn)練,NitroGen 仍然能夠在多種游戲中完成非平凡(non-trivial)的任務(wù),覆蓋了不同的視覺風格(如 3D、2D 俯視視角、2D 橫向卷軸)以及多樣的游戲類型(平臺跳躍、動作 RPG、Roguelike 等)。
![]()
后訓(xùn)練實驗結(jié)果
更重要的是,NitroGen 能夠有效遷移到從未見過的新游戲。在相同任務(wù)設(shè)定下,其任務(wù)成功率相比從零開始訓(xùn)練的模型,最高可實現(xiàn) 52% 的相對提升
這項工作能夠殺死比賽。
通用機器人的基礎(chǔ)
NitroGen 只是一個起點,模型能力仍有很大的爬坡空間。研究團隊在這次工作中有意只聚焦于無需深度思考、快速反應(yīng)的「玩家直覺式運動控制」。
據(jù)英偉達機器人總監(jiān) Jim Fan 所說,他們的目標,是打造通用型具身智能體:不僅能掌握現(xiàn)實世界的物理規(guī)律,還能適應(yīng)一個由無數(shù)模擬環(huán)境構(gòu)成的「多元宇宙」中的所有可能物理規(guī)則。
這就是為什么許許多多的交互大模型都對電子游戲的操作念念不忘。電子游戲具備了相當完整的世界和交互體系,每個游戲都是一個非常復(fù)雜完善的模擬環(huán)境,模型能夠?qū)崿F(xiàn)通用的游戲操作,離操作機器人進行真實世界交互也就將更進一步。
英偉達已開源發(fā)布該模型的數(shù)據(jù)集、評測套件以及模型權(quán)重,以推動通用具身智能體方向的進一步研究。
今天,機器人學(xué)是 AI 中「最難問題的超集」。明天,它可能只會成為具身 AGI 巨大潛在空間中的一個子集、一個點。
那時,只需要用自然語言提示,請求一個機器人「游戲手柄」即可。
文中視頻鏈接:https://mp.weixin.qq.com/s/J0OgAnGDM1VAsDfYNnzXnA
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.