![]()
這項由紐約大學主導的突破性研究發表于2026年2月,論文編號為arXiv:2602.22208v2,研究團隊開發出了名為Solaris的多人游戲世界模型。有興趣深入了解的讀者可以通過該編號查詢完整論文。
在人工智能領域,讓機器學會"看懂"和"預測"虛擬世界一直是個巨大挑戰。以往的AI系統就像一個只能從單一窗口觀察房間的人,無法理解整個空間的全貌。而紐約大學的這項研究則讓AI獲得了"多重視角"的能力,就像同時擁有多雙眼睛,能夠從不同角度觀察和理解同一個虛擬世界。
研究團隊選擇《我的世界》作為實驗場所,這個選擇頗具智慧。《我的世界》就像一個巨大的數字樂高世界,玩家可以自由建造、挖掘、探索,而且支持多人同時游戲。這種復雜的三維環境對AI來說是個極好的測試場地,因為它需要理解空間關系、物體交互、以及多個玩家之間的協作行為。
傳統的AI視頻生成模型就像一個只會模仿單人表演的演員,雖然能夠生成看起來真實的視頻,但無法處理多人互動的復雜場景。當兩個或更多玩家在同一個虛擬世界中行動時,他們的行為會相互影響,就像現實世界中的蝴蝶效應一樣,一個玩家放置一個方塊,另一個玩家的視野中就會出現這個方塊,這種視角一致性對AI來說是個巨大挑戰。
Solaris模型的核心創新在于它能夠同時理解和預測多個玩家的視角。當玩家A在建造一面墻時,模型不僅要準確預測玩家A看到的建造過程,還要同時預測站在不同位置的玩家B會看到什么。這就像一個導演同時掌控多臺攝像機,確保每個鏡頭都與其他鏡頭保持邏輯一致性。
為了訓練這個復雜的模型,研究團隊創建了一個名為SolarisEngine的數據收集系統。這個系統就像一個自動化的電影攝制組,能夠讓虛擬的"演員"(游戲機器人)在《我的世界》中進行各種活動,同時從多個角度記錄下所有的行為和視覺變化。這些機器人會進行建造房屋、挖掘礦物、相互戰斗、追逐游戲等多種活動,就像真正的玩家一樣。
通過這個系統,研究團隊收集了超過1200萬幀的多人游戲畫面,相當于數百小時的高質量游戲錄像。這些數據就像是AI的"教科書",幫助它學會理解多人游戲中的各種復雜情況。
一、構建虛擬世界的"攝影棚"
要讓AI學會理解多人游戲,首先需要大量高質量的訓練數據。研究團隊面臨的第一個挑戰就像是要在《我的世界》中建立一個專業的電影攝制組,既要有"演員"(游戲機器人)來表演各種游戲行為,還要有"攝像師"來記錄整個過程。
現有的游戲AI平臺就像是為單人表演設計的簡陋舞臺,雖然能夠控制游戲角色進行簡單動作,但無法支持復雜的多人協作場景。研究團隊發現,要么是平臺支持多人游戲但無法精確控制角色行為,要么是能夠精確控制但不支持多人模式,更別說要記錄高質量的視覺畫面了。
因此,研究團隊從零開始構建了SolarisEngine系統。這個系統的巧妙之處在于將每個虛擬玩家分解為兩個部分:一個"控制器"負責決定角色的行為,另一個"攝像機"負責記錄角色看到的畫面。控制器就像是幕后的木偶師,通過編程指令讓游戲角色執行各種復雜的任務,比如建造特定形狀的建筑物、與其他角色協作完成項目、或者進行戰斗。
攝像機部分則更像是專業的攝影師,它會完全模仿控制器指揮的角色行為,確保記錄下的畫面與實際游戲狀態完全一致。這種設計解決了一個技術難題:如何確保記錄的視頻與游戲中的實際行為精確對應。
為了讓這些虛擬"演員"能夠進行真實有趣的游戲行為,研究團隊創建了一個豐富的技能庫。這些技能就像是演員的臺詞本,包含了建造、挖掘、戰斗、探索等各種游戲活動的具體執行方案。更重要的是,這些技能支持多人協作,比如兩個機器人可以合作建造一座橋梁,一個負責搭建橋墩,另一個負責鋪設橋面。
整個系統采用容器化技術進行部署,就像是把整個攝制組打包成一個個可以快速部署的單元。這樣做的好處是可以同時運行多個"攝制組",大幅提高數據收集的效率。當某個游戲場景出現問題或者卡住時,系統會自動檢測并重新開始,確保數據收集過程的連續性。
通過這個精心設計的系統,研究團隊成功收集了包含四大類游戲場景的數據:建造場景包括房屋、塔樓、橋梁等結構的建設;戰斗場景涵蓋玩家間對戰和與怪物作戰;移動場景包括追逐、環繞、直線行走等各種運動模式;挖掘場景則包含地下探索、礦物開采、地形改造等活動。
這些數據的珍貴之處在于它們完美捕捉了多人游戲中的互動細節。當一個玩家放置方塊時,系統同時記錄了這個動作在所有其他玩家視角中的表現。當玩家們合作建造時,每個人的貢獻都被準確記錄下來。這種多視角同步記錄為訓練多人世界模型提供了理想的數據基礎。
二、讓AI學會"多重視角"的思考
收集到海量數據后,下一個挑戰是設計能夠處理多人視角的AI架構。傳統的視頻生成模型就像是只會畫肖像畫的畫家,雖然技藝精湛,但只能專注于單一對象。而Solaris需要成為一個能夠同時處理多個角色、多個視角的"全景畫家"。
研究團隊的解決方案頗具巧思。他們沒有完全重新發明輪子,而是在已有的優秀視頻生成模型基礎上進行巧妙改造。這就像是給一臺單座跑車改裝成雙座車,既保持了原有的強大性能,又增加了新的功能。
核心的技術創新在于"視覺交錯"機制。簡單來說,就是讓模型在處理視頻時,將不同玩家的畫面按時間順序交錯排列,就像編織毛衣時交替使用不同顏色的線一樣。這樣做的好處是模型可以同時"看到"所有玩家的視角,并且理解它們之間的關聯性。
為了讓模型能夠區分不同的玩家,研究團隊為每個玩家分配了獨特的身份標識,就像給每個演員戴上不同顏色的名牌。模型在處理每一幀畫面時,都知道這是來自哪個玩家的視角,從而能夠做出相應的預測和調整。
更巧妙的是,模型采用了"共享注意力"機制。這個機制就像是一個善于協調的指揮家,能夠讓交響樂團中的不同樂器既保持各自的特色,又和諧統一。在視頻生成過程中,不同玩家的視角信息會相互交流和影響,確保生成的多個視角在邏輯上保持一致。
舉個具體例子來說,當玩家A在建造一面墻時,模型不僅要預測玩家A會看到墻體逐漸升高的過程,還要同時預測站在墻另一側的玩家B會看到什么。如果玩家B正好面對著正在建造的墻面,那么在玩家B的視角中也應該看到相同的建造過程,只是角度不同。這種跨視角的一致性正是Solaris模型的核心能力。
模型的動作處理部分也經過了專門優化。研究團隊擴展了原有模型的動作空間,讓它能夠理解《我的世界》中的各種復雜操作,包括移動、跳躍、放置方塊、挖掘、攻擊、物品切換等。這就像是給模型配備了一套完整的"游戲手冊",讓它知道每種動作會產生什么樣的視覺效果。
三、循序漸進的訓練策略
訓練這樣一個復雜的多人世界模型就像是培養一個全能的游戲玩家,需要循序漸進的學習過程。研究團隊設計了一個四階段的訓練流程,就像是從幼兒園到大學的教育體系,每個階段都有明確的學習目標和內容。
第一階段是單人游戲的強化訓練。雖然最終目標是多人世界建模,但研究團隊發現讓模型先徹底掌握單人游戲的各種情況是非常重要的基礎。這就像是學習舞蹈時要先練好基本功,掌握了單人的動作要領,才能更好地進行雙人或群體舞蹈。
在這個階段,模型使用了大量的人類游戲數據進行訓練。這些數據來自VPT數據集,包含了超過2000小時的真實人類《我的世界》游戲記錄。通過學習人類的游戲行為,模型掌握了游戲的基本規律和常見模式,比如挖掘會讓方塊消失、放置會讓方塊出現、不同工具有不同效果等等。
第二階段開始引入多人場景。這時候模型就像是從獨奏轉向合奏的音樂家,需要學會在演奏自己部分的同時,關注其他演奏者的表現。模型開始使用研究團隊收集的多人游戲數據進行訓練,學習理解多個玩家同時行動時的復雜交互。
這個階段的關鍵是讓模型建立起"全局視角"的概念。單人游戲時,模型只需要關注一個視角的變化,但多人游戲時,一個玩家的行為會同時影響多個視角。比如當一個玩家點燃火把時,不僅他自己會看到光亮,附近的其他玩家也會在各自的視角中看到相應的光照變化。
第三階段是因果關系建模的訓練。前兩個階段使用的是"雙向"訓練方式,就像是讓學生既能從前往后讀課文,也能從后往前讀,這樣有助于更全面地理解內容。但在實際應用中,AI需要能夠基于當前狀態預測未來,這需要"單向"的因果推理能力。
這個階段的訓練就像是教會模型"時間的箭頭",讓它明白事件的先后順序和因果關系。當玩家執行某個動作時,模型需要能夠預測這個動作會在未來的畫面中產生什么樣的變化,而不能"偷看"未來的信息來幫助當前的預測。
第四階段是自我強化訓練,這是整個訓練過程中最具挑戰性的部分。傳統的訓練方式就像是讓學生永遠做課本上的練習題,雖然能學到很多知識,但缺乏應對新情況的能力。自我強化訓練則讓模型開始"做自己的練習題",使用自己生成的預測結果來進行進一步的訓練。
這個過程中,研究團隊引入了"檢查點自強化"技術。傳統的自強化訓練就像是要求學生一邊寫作業一邊背誦所有做過的題目,內存負擔極重。檢查點技術則像是允許學生把中間步驟寫在草稿紙上,需要時再查閱,大大降低了內存使用量,使得更長時間的訓練成為可能。
通過這四個階段的循序漸進訓練,Solaris模型最終獲得了穩定生成長時間、多視角一致視頻的能力。整個訓練過程就像是培養一個從業余愛好者成長為專業游戲主播的完整歷程。
四、測試AI的"游戲智商"
要驗證Solaris模型是否真正掌握了多人世界建模的能力,研究團隊設計了一套全面的測試體系,就像是為AI準備的"游戲智商測試"。這些測試涵蓋了五個核心能力維度,每一個都對應著多人游戲中的關鍵挑戰。
運動能力測試考察的是模型能否準確理解和預測角色的移動。在測試場景中,一個玩家會進行各種運動,比如向前走、轉身、跳躍等,而另一個玩家在旁邊觀察。模型需要準確預測觀察者會看到運動玩家在不同位置的樣子。這就像是測試一個導演能否準確預測從不同機位拍攝同一個演員時會得到什么樣的畫面。
定位能力測試更加復雜,它考驗的是模型的空間記憶能力。在這個測試中,兩個玩家面對面站立,然后其中一個轉身看向別處,過一段時間后再轉回來。模型需要準確預測轉身的玩家在轉回來時能否看到另一個玩家。這個測試的難點在于,當玩家轉身時,另一個玩家雖然從他的視野中消失了,但實際上仍然存在于虛擬世界中,模型需要"記住"這個空間關系。
記憶能力測試進一步提升了難度。兩個玩家都會轉身看向別處,然后再同時轉回來。這要求模型不僅要記住單個玩家的位置,還要同時追蹤多個玩家的空間關系。就像是要求AI在玩"蒙眼抓人"游戲時,即使看不見其他人,也能記住他們的大概位置。
建造能力測試關注的是模型能否理解環境變化。在測試場景中,一個玩家會建造簡單的結構,比如一面墻或一個小房子,而另一個玩家在旁邊觀察。模型需要準確預測觀察者會看到建造過程的每個步驟,包括方塊的出現、結構的形成等。這個測試的關鍵在于驗證模型是否理解物理世界的基本規律,比如方塊不能懸空、建筑物需要有支撐等。
一致性測試是最具挑戰性的,它要求模型確保不同視角之間的邏輯一致性。兩個相鄰的玩家同時轉向同一個方向時,他們應該看到相似的景物。而當他們轉向相反方向時,看到的景物應該完全不同。這個測試驗證的是模型是否真正理解了三維空間的幾何關系。
為了客觀評估模型的表現,研究團隊采用了"AI評委"的方法。他們使用先進的視覺語言模型作為評判員,讓它觀看模型生成的視頻,然后回答具體的問題。比如在運動測試中,AI評委會被問"視頻中的玩家是向左移動還是向右移動?"這種評估方法的優勢在于能夠自動化地處理大量測試樣本,同時保證評判標準的一致性。
測試結果表明,Solaris在各個維度都展現出了令人印象深刻的能力。在運動和一致性測試中,模型的表現接近完美,能夠準確預測玩家移動和視角變化的效果。在更復雜的記憶和建造測試中,雖然還有改進空間,但已經遠超現有的單人世界模型。
特別值得注意的是,當研究團隊將Solaris與簡單的多視角拼接方法進行比較時,Solaris的優勢更加明顯。簡單拼接就像是把兩個獨立的單人視頻硬性組合在一起,雖然每個視頻本身可能看起來不錯,但兩個視角之間缺乏邏輯關聯,經常出現不一致的情況。而Solaris生成的視頻則能保持多視角間的和諧統一。
五、從實驗室到現實世界的可能性
Solaris模型展現出的能力遠不止是技術演示,它為未來的多個應用領域打開了新的可能性。就像早期的互聯網技術看似只是學術研究,但最終改變了整個世界一樣,多人世界建模技術也蘊含著巨大的潛力。
在游戲開發領域,這項技術可能帶來革命性的變化。傳統的游戲測試就像是讓人類玩家在游戲中進行各種嘗試,找出可能存在的問題和漏洞,這個過程既耗時又費力。有了Solaris這樣的技術,游戲開發者可以讓AI模擬成千上萬種不同的游戲場景,快速發現潛在問題,大大加速游戲開發和優化的過程。
更進一步,這種技術還能用于生成游戲內容。設想一下,當玩家進入一個新的游戲區域時,AI可以基于玩家的歷史行為和偏好,實時生成個性化的游戲內容和挑戰。這就像是擁有一個永不疲倦的游戲設計師,能夠為每個玩家量身定制獨特的游戲體驗。
在教育和培訓領域,多人世界建模技術也展現出巨大價值。傳統的虛擬現實培訓系統往往只能支持單人操作,或者多人場景的交互效果不夠真實。Solaris這樣的技術可以創建更加逼真的多人協作訓練環境,讓學員在虛擬環境中練習團隊合作、危機處理等復雜技能。
比如在醫療培訓中,多名實習醫生可以在虛擬手術室中協作完成復雜手術,每個人都能從自己的視角看到真實的操作環境和其他成員的行為。這種訓練方式既安全又高效,能夠讓學員在沒有風險的環境中積累寶貴經驗。
在機器人技術領域,這項研究的意義同樣深遠。現實世界中的機器人往往需要相互協作完成任務,比如工廠中的裝配線作業、倉庫中的貨物分揀等。Solaris展現的多智能體協調能力為開發更智能的機器人系統提供了重要啟示。
通過在虛擬環境中訓練機器人的協作行為,可以大大降低現實世界測試的成本和風險。機器人可以在虛擬世界中學會如何與其他機器人協調配合,如何處理復雜的多任務場景,然后將這些經驗應用到現實操作中。
當然,這項技術目前還存在一些局限性。最主要的限制是訓練數據完全來自虛擬環境,這可能導致模型在處理現實世界的復雜情況時表現不夠理想。虛擬世界雖然復雜,但仍然是簡化的現實,缺少真實世界中的許多不確定因素和細微差別。
另一個挑戰是持久性記憶的缺乏。目前的模型雖然能在短時間內保持多視角的一致性,但當玩家長時間分離后再次相遇時,模型可能無法準確記住之前的互動歷史。這就像是患有短期記憶障礙的人,雖然能夠應對當前的情況,但難以維持長期的關系和連續性。
盡管存在這些限制,Solaris代表的技術方向仍然具有巨大的發展潛力。隨著計算能力的提升和算法的改進,這些限制有望逐步得到解決。更重要的是,這項研究為整個人工智能領域提供了一個重要的研究方向,即如何讓AI系統更好地理解和預測多智能體交互的復雜場景。
研究團隊已經將SolarisEngine系統和相關數據集開源,這意味著世界各地的研究者都可以在此基礎上進行進一步的探索和改進。這種開放的研究態度有助于加速整個領域的發展,就像早期的開源軟件推動了互聯網技術的快速普及一樣。
說到底,Solaris不僅僅是一個能夠生成多人游戲視頻的AI模型,更是向著理解復雜多智能體世界邁出的重要一步。在我們生活的現實世界中,幾乎所有有意義的活動都涉及多個參與者的協作和互動。讓AI學會理解和預測這種復雜的多方互動,將為構建更智能、更有用的人工智能系統奠定重要基礎。
從某種意義上說,這項研究讓我們看到了AI技術發展的一個重要趨勢:從單一任務的優化轉向復雜場景的理解,從孤立的智能體轉向協作的智能群體。這不僅僅是技術上的進步,更是對智能本質的更深層次探索。歸根結底,真正的智能往往體現在與他人的互動和協作中,而Solaris正是朝著這個方向邁出的堅實一步。對于那些關注AI技術發展趨勢的讀者,這項研究無疑提供了一個值得深思的視角:未來的AI系統將不再是孤立的智能個體,而是能夠理解、預測和參與復雜社會互動的智能群體。
Q&A
Q1:Solaris模型和普通的視頻生成AI有什么區別?
A:普通的視頻生成AI就像只會畫單人肖像的畫家,只能處理單一視角的內容。而Solaris是首個能夠同時處理多個玩家視角的世界模型,它能確保當一個玩家在《我的世界》中放置方塊時,其他玩家的視角中也會同步出現相應的變化,實現真正的多視角一致性。
Q2:SolarisEngine數據收集系統是如何工作的?
A:SolarisEngine就像一個自動化的電影攝制組,它讓虛擬機器人在《我的世界》中進行各種游戲活動,包括建造、挖掘、戰斗、探索等,同時從多個角度同步記錄所有行為和視覺變化。通過這種方式,研究團隊收集了超過1200萬幀的高質量多人游戲數據。
Q3:這項技術除了游戲還能用在哪些地方?
A:這項技術的應用前景很廣泛,包括虛擬現實培訓(比如讓多名實習醫生在虛擬手術室協作)、機器人協作系統開發、教育培訓環境構建等。任何需要多個智能體協調配合的場景都可能受益于這種多視角世界建模技術。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.