網易首頁 > 網易號 > 正文申請入駐

斯坦福大學團隊讓AI變身多人游戲引擎

2026-04-13 21:30:00　來源: 科技行者

北京舉報

分享至

這項突破性研究由斯坦福大學和谷歌聯合完成，發表于2026年3月，論文編號為arXiv:2603.06679v2。有興趣深入了解的讀者可以通過該編號查詢完整論文。研究團隊開發了一個名為MultiGen的革命性系統，它能夠像一個超級智能的游戲導演一樣，實時生成可編輯的多人游戲世界。

當我們玩游戲時，通常不會想到背后的復雜技術。傳統游戲引擎就像一個巨大的機械鐘表，每個齒輪都精確計算著畫面中的每一個像素。然而，這項研究卻采用了完全不同的方法，就像是讓一個藝術家邊畫邊創造游戲世界，而且還能讓多個玩家同時影響這個正在被創造的世界。

MultiGen系統的核心創新在于引入了"外部記憶"概念。以往的AI游戲引擎就像一個健忘的畫家，只能記住最近幾張畫過的圖，時間一長就會忘記之前畫的是什么。但MultiGen就像給這個畫家配備了一個永不遺忘的助手，專門負責記錄整個游戲世界的布局和每個玩家的位置。這個助手就是"外部記憶"，它確保游戲世界始終保持一致性。

研究團隊選擇了經典游戲《毀滅戰士》作為測試平臺。這個選擇很聰明，因為《毀滅戰士》既有豐富的第一人稱動作元素，又有清晰的關卡布局概念，非常適合驗證這種新型游戲引擎的能力。就像選擇一個既有挑戰性又有代表性的考試題目來驗證學生的能力一樣。

一、重新設計游戲引擎的大腦

傳統的AI游戲引擎就像一個單打獨斗的全能選手，既要記住游戲歷史，又要生成新畫面，還要處理玩家操作。這就好比讓一個人同時當導演、攝影師和演員，雖然可行，但很容易出錯，特別是當多個玩家同時參與時。

MultiGen系統的解決方案就像組建一個專業的電影制作團隊。研究團隊將整個系統分解為三個專門的模塊，每個都有自己的職責。第一個是"記憶模塊"，它就像一個永不疲倦的地圖管理員，負責維護游戲世界的基本布局和所有玩家的當前位置。這個模塊存儲的信息包括游戲地圖的幾何形狀和每個玩家的三維坐標及朝向。

第二個是"觀察模塊"，它扮演著虛擬攝影師的角色。當玩家需要看到下一幀畫面時，這個模塊會詢問記憶模塊當前的世界狀態，然后基于這些信息和玩家的動作指令，生成相應的第一人稱視角畫面。這就像一個攝影師根據導演的要求和演員的位置來調整鏡頭角度和拍攝內容。

第三個是"動力學模塊"，它相當于物理定律的執行者。當玩家按下移動鍵或轉向時，這個模塊負責計算玩家的新位置和朝向，然后更新記憶模塊中的信息。這個過程就像游戲世界中的物理引擎，確保玩家的動作符合基本的空間邏輯。

這種分工合作的設計帶來了顯著的優勢。記憶模塊提供了一個穩定的參照系，就像給整個系統裝上了導航系統，確保無論游戲進行多長時間，世界的基本結構都不會發生意外變化。觀察模塊可以專注于生成高質量的視覺效果，而不用擔心丟失長期信息。動力學模塊則確保玩家的操作能夠準確反映在游戲世界中。

更重要的是，這種設計天然支持多人游戲。由于所有玩家都共享同一個記憶模塊，他們能夠看到彼此的行動效果。這就像多個攝影師同時拍攝同一場戲，每個人看到的角度不同，但拍攝的是同一個真實場景。

二、讓AI成為游戲關卡設計師

傳統的游戲開發需要大量人工設計關卡，這個過程就像建筑師設計房屋一樣，需要詳細規劃每一個房間、走廊和門的位置。MultiGen系統的革命性之處在于，它讓普通用戶也能輕松設計游戲關卡，而且AI會自動將簡單的設計轉化為豐富的游戲體驗。

在MultiGen系統中，用戶只需要繪制一個簡單的頂視圖地圖，就像在紙上畫一個房屋平面圖一樣。這個地圖只需要包含基本的幾何信息，比如墻壁的位置、房間的形狀和通道的連接。用戶不需要關心紋理、光照或者其他復雜的視覺細節。

系統的記憶模塊會將這個簡單地圖存儲為一系列二維頂點和連接線段。每個頂點就像地圖上的一個坐標點，每條線段代表墻壁或障礙物。這種表示方法既簡單又精確，就像用最基本的幾何圖形來描述復雜的建筑結構。

當游戲開始運行時，觀察模塊會根據玩家當前的位置和朝向，從記憶模塊中提取相關的幾何信息。然后它會進行"光線追蹤"計算，就像在游戲世界中發射一束束虛擬光線，計算這些光線會在什么距離碰到墻壁或障礙物。這個過程產生的深度信息會被轉換為"視差圖"，簡單來說就是一個描述距離遠近的信息圖。

有了這個視差圖，AI就知道了當前視角下哪些地方應該是墻壁，哪些地方是空曠的空間，哪些物體應該顯得很近，哪些應該顯得很遠。然后，AI會基于這些幾何約束生成相應的第一人稱視角畫面。這個過程就像一個熟練的畫家，根據透視原理和空間關系，將簡單的平面圖轉化為逼真的三維場景。

研究團隊使用了100個不同的程序生成地圖來訓練這個系統，確保它能夠處理各種不同的關卡設計。這些地圖涵蓋了從簡單的走廊到復雜的房間組合等各種情況，就像讓AI見識了各種不同風格的建筑設計，培養了它的"空間想象力"。

實驗結果顯示，MultiGen系統能夠很好地遵循用戶設計的地圖布局。當玩家在游戲中移動時，AI生成的畫面會準確反映地圖中設定的轉彎、房間和通道。更令人印象深刻的是，即使在長時間的游戲過程中，系統也不會出現"空間迷失"的問題，始終能夠保持與原始地圖設計的一致性。

三、實現真正的多人實時互動

多人游戲的技術挑戰就像同時指揮多個樂隊演奏同一首交響樂，每個樂隊都必須保持完美的同步，任何一個樂隊出現偏差都會影響整體效果。傳統的AI游戲引擎在處理多人游戲時面臨一個根本問題：每個玩家的游戲狀態都是基于自己的觀察歷史，這就像每個樂隊都在聽不同版本的節拍器。

MultiGen系統通過共享外部記憶解決了這個問題。所有玩家都連接到同一個記憶模塊，這個模塊實時維護著完整的游戲世界狀態，包括地圖布局和所有活躍玩家的位置信息。這就像所有樂隊都聽著同一個主指揮的節拍，確保完美協調。

當多個玩家同時游戲時，系統采用分布式處理方式。每個玩家運行自己的觀察模塊和動力學模塊副本，但所有這些副本都從同一個共享記憶中讀取信息，并將更新寫入這個共享記憶。這種設計的巧妙之處在于，它既保證了一致性，又實現了高效的并行處理。

研究團隊設計了一個典型的多人游戲場景來展示系統能力。兩個玩家從地圖的不同位置開始，逐漸接近直到能夠看到對方，然后發生戰斗交互。在整個過程中，兩個玩家看到的畫面完全一致。當一個玩家出現在另一個玩家的視野中時，AI會準確地在正確的位置渲染出對方的形象。當一個玩家"擊殺"另一個玩家時，被擊殺的玩家會從共享狀態中暫時移除，直到"重生"后重新加入。

更令人印象深刻的是，系統支持任意數量的玩家，而不需要在訓練時預先確定玩家數量。這就像一個彈性的聚會空間，可以根據實際需要容納更多或更少的客人。研究團隊成功演示了三人同時游戲的場景，每個玩家都能看到其他兩個玩家的準確位置和動作。

系統的實時性能也很出色。在單個NVIDIA A100 GPU上，每個玩家的畫面生成速度達到約20幀每秒，這已經接近傳統游戲的流暢度要求。更重要的是，增加新玩家并不會顯著降低系統性能，因為每個玩家實例都是獨立運行的，只需要共享讀寫操作。

研究團隊還設計了定量評估方法來測試多人游戲的一致性。他們使用預訓練的視覺語言模型作為"裁判"，判斷生成的畫面中是否正確顯示了應該可見的其他玩家。結果顯示，MultiGen系統在對手存在檢測任務中達到了75.38%的準確率，顯著超越了其他基準方法。

四、技術實現的精妙細節

MultiGen系統的技術實現就像一個精密的瑞士鐘表，每個組件都經過精心設計和調優。觀察模塊基于擴散模型技術構建，這種技術就像一個能夠逐步"去噪"的藝術家，從隨機噪聲開始，逐步雕琢出清晰的游戲畫面。

在訓練過程中，系統使用了一種叫做"噪聲上下文訓練"的技巧。傳統訓練中，AI只見過完美清晰的歷史畫面，但實際運行時卻需要處理自己生成的可能有瑕疵的畫面。這就像一個學生只用標準答案練習，但考試時卻要處理各種不完美的情況。為了解決這個問題，研究團隊在訓練時故意給歷史畫面添加噪聲，讓AI學會處理不完美的輸入。

動力學模塊采用了輕量級的Transformer架構。這個模塊的任務看似簡單，只需要根據玩家動作更新位置信息，但實際上需要考慮復雜的空間約束。比如玩家不能穿墻而過，轉向速度要合理，移動方向要與地圖幾何形狀匹配。研究團隊設計了一個增量更新機制，每次只預測位置和朝向的小幅變化，然后累積這些變化來實現平滑的運動效果。

系統還引入了"歷史引導"技術來提高長期穩定性。在生成新畫面時，AI會同時運行兩個分支：一個基于清晰的歷史畫面，另一個基于略微模糊的歷史畫面。然后系統會比較兩個結果，選擇更符合歷史連貫性的版本。這就像有兩個畫家同時創作，然后選擇更符合整體風格的作品。

為了優化實時性能，研究團隊還實現了多項加速技術。幾何信息的光線追蹤計算被預先緩存，避免重復計算。擴散模型的推理過程使用了并行化的去噪步驟。動力學模塊的計算被設計為可以與畫面生成同時進行，減少等待時間。

五、實驗驗證與性能評估

為了驗證MultiGen系統的實際效果，研究團隊設計了全面的實驗評估方案。他們收集了超過1000萬幀的《毀滅戰士》游戲數據，包括玩家動作、位置信息和對應的畫面。這個數據集就像一個巨大的游戲錄像庫，為AI提供了豐富的學習素材。

在關卡設計能力的測試中，研究團隊使用了結構相似性指數(SSIM)、峰值信噪比(PSNR)和感知距離(LPIPS)等多個指標來評估生成畫面的質量。結果顯示，MultiGen系統在所有指標上都優于基準方法，特別是在長時間游戲過程的后期表現更加突出。這說明外部記憶確實有效防止了長期漂移問題。

具體來說，在128-256幀的長期測試中，MultiGen的SSIM分數達到0.406，而傳統的GameNGen方法只有0.384。更重要的是，MultiGen在感知距離指標上的優勢更加明顯，LPIPS分數為0.505，比最佳基準方法低了約10%。這意味著生成的畫面在人類觀察者看來更加真實和連貫。

在多人游戲一致性測試中，研究團隊設計了"對手存在檢測"任務。他們讓AI生成多人游戲畫面，然后使用視覺語言模型判斷畫面中是否正確顯示了應該可見的其他玩家。MultiGen系統達到了75.38%的準確率，顯著超過了ControlNet的60.71%和IP-Adapter的62.12%。

研究團隊還進行了詳細的消融實驗來驗證各個組件的貢獻。他們測試了不同數量的上下文幀對系統性能的影響，發現使用32幀上下文時效果最佳，SSIM分數達到0.789。這個發現很有實用價值，因為它幫助確定了系統的最優配置參數。

性能測試顯示，MultiGen系統能夠在單個NVIDIA A100 GPU上以約20 FPS的速度生成高質量游戲畫面。雖然這個速度還不及傳統游戲引擎的60-120 FPS，但對于AI生成的實時內容來說已經是一個重大突破。更重要的是，系統的性能隨著玩家數量的增加呈線性擴展，這為未來的優化提供了良好基礎。

六、突破與局限的客觀分析

MultiGen系統實現了幾個重要的技術突破。首先，它解決了AI游戲引擎中的長期一致性問題。傳統方法就像一個健忘的講故事者，時間一長就會忘記之前說過什么，導致故事前后矛盾。MultiGen通過外部記憶機制確保了游戲世界的持續一致性，就像給講故事者配備了詳細的筆記本。

其次，系統實現了真正意義上的多人AI游戲引擎。以往的嘗試大多局限于單人體驗，或者需要在訓練時就固定玩家數量。MultiGen的分布式架構天然支持任意數量的玩家，這為AI生成游戲開辟了全新的可能性。

第三，系統提供了直觀的關卡設計界面。用戶只需要畫一個簡單的二維地圖，AI就能生成相應的三維游戲體驗。這降低了游戲創作的門檻，讓更多人能夠參與游戲內容的創造。

然而，系統也存在一些明顯的局限性。當前的實現嚴重依賴于顯式的地圖表示，這意味著那些不在地圖中明確標記的場景元素（如紋理細節、小物件、特殊效果等）無法得到長期保持。當玩家重新訪問同一區域時，這些細節可能會發生變化，影響沉浸感。

動力學模塊的精確度也有待改進。雖然系統能夠產生合理的玩家運動，但在長時間游戲過程中，小的位置誤差可能會累積，導致玩家實際位置與顯示位置之間的偏差。這個問題類似于導航系統中的累積誤差，需要定期校正。

此外，系統的視覺風格受限于訓練數據。由于使用《毀滅戰士》數據訓練，生成的畫面風格相對固定。要適應不同類型的游戲或視覺風格，需要重新收集數據和訓練模型，這增加了系統的部署成本。

實時性能雖然已經達到了可用水平，但與傳統游戲引擎相比仍有差距。20 FPS的幀率對于某些快節奏的游戲類型來說可能不夠流暢。隨著硬件技術的發展和算法優化，這個問題有望得到解決。

七、開啟游戲產業的新紀元

MultiGen系統的意義遠遠超出了技術演示的范疇，它預示著游戲產業即將迎來一場深刻變革。傳統游戲開發就像制作電影，需要大量的預制內容、精心設計的關卡和昂貴的美術資源。MultiGen開啟的新模式更像即興戲劇，內容在互動過程中動態生成，每次體驗都是獨一無二的。

對于獨立游戲開發者來說，這項技術可能是一個巨大的機遇。他們不再需要龐大的美術團隊和復雜的技術棧，只需要有創意的關卡設計和基本的技術能力，就能創造出引人入勝的游戲體驗。這就像從需要整個交響樂團演奏變為只需要一個人就能創作出豐富音樂的電子合成器革命。

教育領域也可能從中受益。教師可以快速創建交互式的虛擬環境來輔助教學，比如歷史事件的重現、科學實驗的模擬或語言學習的情境練習。學生也可以通過簡單的地圖繪制來創造自己的學習場景，提高參與度和創造力。

然而，這種技術也帶來了新的挑戰和思考。當游戲內容可以實時生成時，傳統的游戲設計理念可能需要重新審視。游戲的價值是否還在于預制的精美內容，還是轉向了創造性的互動機制？玩家的期望也可能發生變化，從追求完美的視覺體驗轉向更加個性化和動態的游戲世界。

從技術發展的角度看，MultiGen代表了AI從內容消費者向內容創造者轉變的重要里程碑。它不再只是處理和分析既有內容，而是能夠根據人類的意圖實時創造新內容。這種能力的進一步發展可能會影響到娛樂、教育、設計等多個領域。

未來的發展方向可能包括支持更多樣化的游戲類型、提高視覺質量和實時性能、增強對復雜交互的支持等。研究團隊也提到了將系統擴展到其他類型游戲的可能性，比如角色扮演游戲或策略游戲。

說到底，MultiGen系統展示了AI技術在創造性應用方面的巨大潛力。它不僅解決了現有技術的局限性，更重要的是開辟了全新的可能性空間。雖然目前還存在一些技術挑戰，但這項研究為未來的游戲技術發展指明了方向。

對于普通玩家來說，這意味著未來可能會體驗到更加個性化、更具創造性的游戲內容。每個人都可能成為游戲世界的設計師，創造屬于自己的獨特體驗。對于整個游戲產業來說，這可能是自3D圖形技術普及以來最重要的技術革新之一。

這項研究提醒我們，技術進步不僅是性能的提升，更是思維方式的轉變。MultiGen系統重新定義了游戲引擎的概念，從靜態的內容展示工具轉變為動態的內容創造平臺。這種轉變的影響可能會在未來幾年內逐漸顯現，改變我們對數字娛樂和交互體驗的理解。

Q&A

Q1：MultiGen系統如何確保多個玩家看到的游戲世界是一致的？

A：MultiGen通過共享外部記憶模塊解決一致性問題。所有玩家都連接到同一個記憶模塊，這個模塊實時維護完整的游戲世界狀態和所有玩家位置。每個玩家雖然運行自己的觀察和動力學模塊，但都從同一個共享記憶中讀取信息，確保看到的是同一個游戲世界。

Q2：用戶需要什么技術水平才能使用MultiGen創建游戲關卡？

A：用戶只需要繪制簡單的二維地圖就可以創建游戲關卡，就像在紙上畫房屋平面圖一樣。不需要復雜的3D建模技能或編程知識，只要能畫出基本的房間、走廊和墻壁位置，AI就會自動生成相應的三維游戲環境和視覺效果。

Q3：MultiGen系統的實時性能如何，能否滿足正常游戲需求？

A：目前MultiGen在單個NVIDIA A100 GPU上可以達到約20幀每秒的生成速度。雖然還不及傳統游戲的60-120幀，但對于AI實時生成內容來說已經是重大突破。系統支持多人游戲且性能隨玩家數量線性擴展，為實用化奠定了基礎。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.