![]()
作者 | 大模型機動組
郵箱 | damoxingjidongzu@pingwest.com
2025 年 8 月 5 日,Google DeepMind 宣布推出Genie 3,這是一個通用世界模型,能夠根據文本提示生成各種可互動的 3D 環境。該模型在 720p 分辨率下以 24 幀/秒實時生成環境,用戶可以像玩游戲一樣自由移動,并且場景在幾分鐘內保持一致。此舉標志著 DeepMind 在世界模型領域的又一次重要躍進,距上一代 Genie 2 發布僅一年多時間。
我們梳理了目前Google官方報告和參與內測的用戶的反饋,以及Genie3背后團隊的深度訪談,為大家提供核心信息的匯總,更好了解這個模型。
Google官方博客 :從文字到世界,Genie 3 是什么?
邁向世界模擬
在 Google DeepMind,我們已超過十年時間在模擬環境領域進行開創性研究,從訓練智能體到掌握實時策略游戲 ,再到為開放式學習和機器人技術開發模擬環境。這項工作促使我們開發了世界模型,即能夠利用其對世界的理解來模擬世界某些方面的 AI 系統,使智能體能夠預測環境將如何演變以及其行為將如何影響環境。
世界模型也是通往通用人工智能(AGI)道路上的關鍵里程碑,因為它們使得在豐富的模擬環境中對人工智能代理進行無限課程訓練成為可能。去年,我們推出了首個基礎世界模型 Genie 1 和 Genie 2,它們能夠為代理生成新環境。我們還繼續通過我們的模型 Veo 2 和 Veo 3 推動視頻生成技術的最前沿,這些模型展現出對直觀物理學的深刻理解。
這些模型標志著在模擬世界不同能力方面的進展。Genie 3 是我們首個允許實時交互的世界模型,同時與 Genie 2 相比,它還提高了連貫性和真實性。
![]()
核心能力
官方對 Genie 3 的能力做了簡潔描述:該模型能夠從任意文本提示生成可互動世界,實時輸出 720p、24fps 的動態環境,且場景在長達一分鐘的交互中保持物理一致;用戶還可以通過追加提示改變天氣或加入人物。以下是 Genie 3 的主要特性:
模擬世界物理屬性:該模型能呈現水、光線等自然現象,以及復雜的環境交互。
提示示例:在佛羅里達的人行道上行走,一側是雙向車道,另一側是大海;颶風逼近,狂風呼嘯,海浪拍打著路面;智能體左側有欄桿分隔海水與道路;道路沿海岸延伸,前方可見一座短橋;海浪不斷越過欄桿沖上路面;棕櫚樹在風中彎折;大雨滂沱,智能體穿著雨衣;真實世界第一視角。
模擬自然世界:能生成豐富的生態系統,涵蓋動物行為與復雜植物。
提示示例:沿冰川湖畔奔跑,探索森林中的分叉小徑,穿越流動的山間溪流;背景是壯麗的雪山與松樹林,豐富的野生動物讓旅程充滿樂趣。
模擬動畫與虛構場景:能激發想象力,生成奇幻場景與富有表現力的動畫角色。
提示示例:鮮明的 3D 風格,一只毛茸茸的可愛生物在奇幻景觀中的彩虹橋上跳躍;生物小巧圓潤,皮毛呈現日出般的暖色調 —— 橙、黃、粉漸變交融;最醒目的是一對豎起的大耳朵,形似德國牧羊犬,與圓潤身形形成俏皮反差;它用四條短腿跑過彩虹橋時,皮毛如波浪般起伏,充滿動感與活力;彩虹橋優雅地橫跨奇幻 landscape,周圍或許有浮島、發光植物與旋轉云層;光線明亮歡快,為生物與環境鍍上暖光;整體傳遞出喜悅、好奇與無限活力,展現生物的頑皮與世界的魔力,喚起觀者的童真與對冒險的想象。
探索特定地點與歷史場景:能突破地理與時間限制,呈現特定地點與過往時代。
提示示例:真實風格的阿爾卑斯山區環境:陡峭的巖石懸崖與狹窄的峽谷中布滿碎石;巖石以灰白為主,部分崖面覆有綠色植被;峽谷頂端延伸出茂密的針葉林與草地景觀;整體凸顯粗獷的自然之美與極端地形特征。
突破實時交互極限
Genie 3 實現高度可控性與實時交互,離不開重大技術突破。在逐幀自回歸生成過程中,模型需納入隨時間累積的歷史軌跡 —— 例如,當用戶一分鐘后重返某地時,模型需調用一分鐘前的相關信息。為實現實時交互,系統需每秒多次響應新輸入并完成計算。
長期環境一致性
AI 生成的世界要具備沉浸感,必須在長時間內保持物理一致性。但自回歸生成環境比生成完整視頻更具技術挑戰,因為誤差會隨時間累積。盡管如此,Genie 3 生成的環境仍能在數分鐘內保持穩定,視覺記憶可追溯至一分鐘前。
提示示例:第一視角運動相機,記錄用滾筒刷給棕色房屋刷漆的過程。
![]()
建筑左側的樹木在整個交互過程中始終保持一致,無論是否出現在視野中。
Genie 3 的一致性是一種自然涌現的能力。NeRFs 和高斯濺射等方法也能生成可導航的一致性 3D 環境,但依賴明確的 3D 模型;而 Genie 3 生成的世界更動態豐富,因為它基于世界描述和用戶行為逐幀創建。
提示示例:第一視角無人機鏡頭,在冰島的狹窄峽谷中高速飛行,谷底有河流,巖石覆有苔蘚,正值黃金時刻;真實世界場景。
可提示的世界事件
除導航輸入外,Genie 3 還支持更靈活的文本交互 —— 即 “可提示的世界事件”。
這類事件能改變生成的世界(如調整天氣、引入新物體或角色),超越單純的導航控制,豐富交互體驗。
這一能力還能擴展 “反事實場景”(即 “如果…… 會怎樣”)的范圍,幫助智能體通過經驗學習應對突發情況。
推動具身智能體研究
為了測試 Genie 3 創建的世界對未來智能體訓練的兼容性,我們為最近版本的 SIMA 智能體生成了世界,這是我們用于 3D 虛擬環境的通用智能體。在每個世界中,我們指示智能體追求一組不同的目標,它通過向 Genie 3 發送導航動作來試圖實現這些目標。像任何其他環境一樣,Genie 3 并不了解智能體的目標,而是根據智能體的動作來模擬未來。
由于 Genie 3 能夠保持一致性,現在可以執行更長的動作序列,從而實現更復雜的目標。我們預計這項技術將在我們邁向通用人工智能(AGI)的過程中發揮關鍵作用,并且智能體將在世界上扮演更重要的角色。
局限與挑戰
盡管 Genie 3 拓展了世界模型所能實現的范圍,但有必要承認其當前局限性:
有限的行動空間 。盡管可提示的世界事件允許進行廣泛的環境干預,但這些干預并非一定由代理自身執行。代理可直接執行的行動范圍目前仍受限制。
其他代理的交互與模擬 。在共享環境中準確模擬多個獨立代理之間的復雜交互,仍然是持續的研究挑戰。
真實世界位置的準確表示 。Genie 3 目前無法以完美的地理精度模擬真實世界位置。
文本渲染。 只有當輸入的世界描述中提供清晰易讀的文本時,才會生成。
交互時長有限。 該模型目前僅支持幾分鐘的連續交互,而非長時間。
責任
我們相信,基礎技術從一開始就需要對責任有深刻的承諾。Genie 3 中的技術創新,特別是其開放式和實時能力,為安全和責任帶來了新的挑戰。為了在最大化益處的同時應對這些獨特風險,我們與負責任發展與創新團隊緊密合作。
在 Google DeepMind,我們致力于以既能增強人類創造力又能限制非預期影響的方式開發我們一流的模型。隨著我們繼續探索 Genie 的潛在應用,我們宣布將 Genie 3 作為一項有限的研究預覽發布,向一小部分學者和創作者提供早期訪問權限。這種做法使我們能夠在探索這一新領域的過程中收集至關重要的反饋和跨學科視角,并繼續加深我們對風險及其適當緩解措施的理解。我們期待與社區進一步合作,以負責任的方式開發這項技術。
下一步
我們相信 Genie 3 是世界模型的一個重要時刻,它將開始對人工智能研究和生成式媒體等多個領域產生影響。為此,我們正在探索如何在將來讓更多測試者能夠使用 Genie 3。
Genie 3 可以為教育和培訓創造新的機遇,幫助學生學習和專家積累經驗。它不僅能提供廣闊的空間來訓練機器人等智能體和自主系統,還能實現智能體性能的評估,并探索其弱點。
在每一步,我們都在探索我們的工作的意義,并為其造福人類而開發,安全且負責任。
可見即可游:Genie 3 的更多場景與玩法
官方視頻和第三方 Demo 網站(genie3.site)展示了 Genie 3 在真實場景中的生成能力:用戶可一鍵探索古城遺跡、瀑布峽谷、太空基地等多樣環境,并體驗火山噴發、漂浮島嶼、傳送門等動態事件。社區開發者更可通過一句文本提示,自由構建可交互的關卡,制作邏輯解謎、角色對話,甚至生成一段風格獨特的動畫短片。正如 The Decoder 所評論的,Genie 3 已初步具備“生成式游戲引擎”的雛形。
駕駛車輛行駛在爆發的火山旁邊
Genie 3 能夠生成完整的 3D 世界
電子游戲將永遠不一樣
最新深度訪談:它靠什么實現?
機器學習節目Machine Learning Street Talk發布了一期專題訪談,邀請 Genie 3 論文作者Jack Parker?Holder與Shlomi Fruchter詳細介紹模型設計和未來愿景。訪談指出,Genie 3 在架構上融合了視頻生成技術和強化學習,采用自回歸方式按幀生成,并通過長期記憶模塊保持物體的一致性。他們強調,模型目前仍是研究原型,尚未公開接口,但未來有望與語言模型和三維 AI 相結合,成為開發者構建互動內容的基礎工具。這期節目還討論了世界模型對游戲產業、機器人訓練和科學模擬的潛在影響,與 Jim Fan 所說的“游戲引擎 2.0”概念相呼應。
TLDR :
“三秒鐘創造世界”:節目用一句形象的例子來說明 Genie 3 的速度——你只需輸入“無人機飛過一片湖面”或“雪坡”,模型大約三秒就能生成這個逼真的世界,然后你可以在其中實時移動和互動。這一點讓它像即開即玩的游戲編輯器。
涌現出的記憶一致性:受訪者解釋,Genie 3 并未顯式編程記住物體位置,但世界會記住你離開時的狀態,當你轉頭再看,物體依舊存在。這種“可靠的記憶”是自回歸生成架構的自然產物,也是世界模型與普通視頻模型的根本區別。
世代飛躍:上一代 Genie 2 的互動只有 10–20 秒,而 Genie 3 以 720p、24fps 的畫質維持幾分鐘。Shlomi Fruchter 稱這是邁向通用世界模型的重要一步,因為長時間的一致性讓 AI 代理能完成復雜目標。
殺手級應用:訓練機器人:Jack Parker?Holder 指出,Genie 3 最大的用途不是娛樂,而是訓練自動駕駛汽車和機器人。在虛擬世界中,可以反復觸發罕見事件(例如鹿突然跳入道路)來教會 AI 安全應對。這比在真實道路上試驗更安全、更高效。
“YouTube 2.0”式的開放愿景:節目暢想這種技術可能催生新的內容平臺——人們通過提示共同創建和探索互聯的世界,像升級版的 YouTube 或 VR 體驗。這種開放式創作也被稱為“世界事件可提示”,用戶不僅能導航,還能用文字改變天氣、加入角色。
世界模型是 AGI 的階梯:研究員強調,能模擬出多樣復雜世界的模型是通向通用人工智能的關鍵,因為它們為 AI 代理提供了無限的訓練場。DeepMind 認為 Genie 3 為未來與語言模型和 3D AI 融合奠定了基礎。
當前局限:Genie 3 仍是研究預覽,動作空間有限,物理和地理精度欠佳,多代理互動和文字渲染有困難,持續互動時間只有幾分鐘。因此它還無法取代真實引擎,但已顯現出巨大潛力。
內測用戶這樣評價 Genie 3:驚艷與不足并存
AI 研究者 Tejas Kulkarni 獲邀體驗 Genie 3。通過一整天的試用,他認為這是自己使用過的首個泛化性如此強且具有長期一致性的神經世界模型。Tejas 總結了模型的亮點:
![]()
啟動迅速,既適用于游戲場景也能泛化到工業或真實環境;
能在沒有游戲引擎的情況下學會非剛體物理,并出色地呈現全局光照和寫實環境;
對 stylized 風格的場景支持良好,適合概念藝術家和關卡設計;
模型的世界記憶在遮擋和多秒時間跨度下依舊保持一致。
他也指出了當前明顯的局限:
模型仍會在經典物理實驗(如堆積木塔)中失敗,復雜指令序列也容易卡住;
社會與多智能體互動尚未解決,1 對 1 戰斗游戲無法實現;
行為動作有限,尚不能替代完整的游戲引擎;
盡管如此,他認為這種技術將在未來五年顛覆游戲行業,并可能成為實現強人工智能的“最后一塊拼圖”
一個新范式的起點
Genie 3 目前只向少數學術機構和創作者提供研究預覽,DeepMind 希望通過逐步擴大測試來發現潛在風險。The Decoder 指出,模型存在交互時長有限、動作受限、多代理不穩定、地理信息缺失等技術瓶頸,但這些問題并不妨礙其成為未來 AI 訓練和內容創作的重要平臺。
從游戲視角來看,NVIDIA AI 負責人 Jim Fan 形容 Genie 3 預示著“游戲引擎 2.0”時代:未來無需顯式 3D 素材和渲染管線,開發者通過提示即可驅動一塊數據權重生成完整世界。DeepMind CEO Demis Hassabis 也指出,世界模型讓 AI 能在豐富模擬中自主學習,是通向 AGI 的關鍵。隨著模型與大型語言模型、3D 重建技術結合,實時生成的互動世界可能成為訓練通用智能和構建新媒體形態的基礎設施。
Genie 3 的發布標志著世界模型進入了可用、可玩的新階段:它不僅能根據文本生成高保真世界,還能讓用戶自由漫游、修改環境并保持記憶。盡管這一模型仍處于研究預覽階段,存在物理漏洞和多智能體限制,但其展現出的潛力讓人看到游戲開發、機器人訓練甚至科學模擬的全新可能。正如一位內測者所說,這也許是邁向真正 AGI 的“最后一塊拼圖”。
參考資料:
官方blog
https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/
官方摘要
https://www.linkedin.com/posts/googledeepmind_introducing-genie-3-a-groundbreaking-world-activity-7358499030621908992-Mqr_/
媒體報道
https://www.theverge.com/news/718723/google-ai-genie-3-model-video-game-worlds-real-time
https://the-decoder.com/google-deepminds-genie-3-generates-interactive-3d-worlds-that-stay-consistent-for-multiple-minutes/
官方視頻
https://www.youtube.com/watch?v=PDKhUknuQDg
第三方的Demo合集
https://genie3.site/
內測用戶反饋
https://x.com/tejasdkulkarni/status/1952737669894574264
最新的深度采訪
https://www.youtube.com/watch?v=ekgvWeHidJs&t=6s
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.