網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Google Genie3：世界模型的ChatGPT時(shí)刻？｜核心信息大匯總

2025-08-06 17:12:44　來(lái)源: 硅星GenAI

上海舉報(bào)

分享至

作者｜大模型機(jī)動(dòng)組
郵箱｜ damoxingjidongzu@pingwest.com

2025 年 8 月 5 日，Google DeepMind 宣布推出Genie 3，這是一個(gè)通用世界模型，能夠根據(jù)文本提示生成各種可互動(dòng)的 3D 環(huán)境。該模型在 720p 分辨率下以 24 幀/秒實(shí)時(shí)生成環(huán)境，用戶可以像玩游戲一樣自由移動(dòng)，并且場(chǎng)景在幾分鐘內(nèi)保持一致。此舉標(biāo)志著 DeepMind 在世界模型領(lǐng)域的又一次重要躍進(jìn)，距上一代 Genie 2 發(fā)布僅一年多時(shí)間。

我們梳理了目前Google官方報(bào)告和參與內(nèi)測(cè)的用戶的反饋，以及Genie3背后團(tuán)隊(duì)的深度訪談，為大家提供核心信息的匯總，更好了解這個(gè)模型。

Google官方博客：從文字到世界，Genie 3 是什么？

邁向世界模擬

在 Google DeepMind，我們已超過(guò)十年時(shí)間在模擬環(huán)境領(lǐng)域進(jìn)行開(kāi)創(chuàng)性研究，從訓(xùn)練智能體到掌握實(shí)時(shí)策略游戲，再到為開(kāi)放式學(xué)習(xí)和機(jī)器人技術(shù)開(kāi)發(fā)模擬環(huán)境。這項(xiàng)工作促使我們開(kāi)發(fā)了世界模型，即能夠利用其對(duì)世界的理解來(lái)模擬世界某些方面的 AI 系統(tǒng)，使智能體能夠預(yù)測(cè)環(huán)境將如何演變以及其行為將如何影響環(huán)境。

世界模型也是通往通用人工智能（AGI）道路上的關(guān)鍵里程碑，因?yàn)樗鼈兪沟迷谪S富的模擬環(huán)境中對(duì)人工智能代理進(jìn)行無(wú)限課程訓(xùn)練成為可能。去年，我們推出了首個(gè)基礎(chǔ)世界模型 Genie 1 和 Genie 2，它們能夠?yàn)榇砩尚颅h(huán)境。我們還繼續(xù)通過(guò)我們的模型 Veo 2 和 Veo 3 推動(dòng)視頻生成技術(shù)的最前沿，這些模型展現(xiàn)出對(duì)直觀物理學(xué)的深刻理解。

這些模型標(biāo)志著在模擬世界不同能力方面的進(jìn)展。Genie 3 是我們首個(gè)允許實(shí)時(shí)交互的世界模型，同時(shí)與 Genie 2 相比，它還提高了連貫性和真實(shí)性。

核心能力

官方對(duì) Genie 3 的能力做了簡(jiǎn)潔描述：該模型能夠從任意文本提示生成可互動(dòng)世界，實(shí)時(shí)輸出 720p、24fps 的動(dòng)態(tài)環(huán)境，且場(chǎng)景在長(zhǎng)達(dá)一分鐘的交互中保持物理一致；用戶還可以通過(guò)追加提示改變天氣或加入人物。以下是 Genie 3 的主要特性：

模擬世界物理屬性：該模型能呈現(xiàn)水、光線等自然現(xiàn)象，以及復(fù)雜的環(huán)境交互。

提示示例：在佛羅里達(dá)的人行道上行走，一側(cè)是雙向車道，另一側(cè)是大海；颶風(fēng)逼近，狂風(fēng)呼嘯，海浪拍打著路面；智能體左側(cè)有欄桿分隔海水與道路；道路沿海岸延伸，前方可見(jiàn)一座短橋；海浪不斷越過(guò)欄桿沖上路面；棕櫚樹(shù)在風(fēng)中彎折；大雨滂沱，智能體穿著雨衣；真實(shí)世界第一視角。

模擬自然世界：能生成豐富的生態(tài)系統(tǒng)，涵蓋動(dòng)物行為與復(fù)雜植物。

提示示例：沿冰川湖畔奔跑，探索森林中的分叉小徑，穿越流動(dòng)的山間溪流；背景是壯麗的雪山與松樹(shù)林，豐富的野生動(dòng)物讓旅程充滿樂(lè)趣。

模擬動(dòng)畫(huà)與虛構(gòu)場(chǎng)景：能激發(fā)想象力，生成奇幻場(chǎng)景與富有表現(xiàn)力的動(dòng)畫(huà)角色。

提示示例：鮮明的 3D 風(fēng)格，一只毛茸茸的可愛(ài)生物在奇幻景觀中的彩虹橋上跳躍；生物小巧圓潤(rùn)，皮毛呈現(xiàn)日出般的暖色調(diào) —— 橙、黃、粉漸變交融；最醒目的是一對(duì)豎起的大耳朵，形似德國(guó)牧羊犬，與圓潤(rùn)身形形成俏皮反差；它用四條短腿跑過(guò)彩虹橋時(shí)，皮毛如波浪般起伏，充滿動(dòng)感與活力；彩虹橋優(yōu)雅地橫跨奇幻 landscape，周圍或許有浮島、發(fā)光植物與旋轉(zhuǎn)云層；光線明亮歡快，為生物與環(huán)境鍍上暖光；整體傳遞出喜悅、好奇與無(wú)限活力，展現(xiàn)生物的頑皮與世界的魔力，喚起觀者的童真與對(duì)冒險(xiǎn)的想象。

探索特定地點(diǎn)與歷史場(chǎng)景：能突破地理與時(shí)間限制，呈現(xiàn)特定地點(diǎn)與過(guò)往時(shí)代。

提示示例：真實(shí)風(fēng)格的阿爾卑斯山區(qū)環(huán)境：陡峭的巖石懸崖與狹窄的峽谷中布滿碎石；巖石以灰白為主，部分崖面覆有綠色植被；峽谷頂端延伸出茂密的針葉林與草地景觀；整體凸顯粗獷的自然之美與極端地形特征。

突破實(shí)時(shí)交互極限

Genie 3 實(shí)現(xiàn)高度可控性與實(shí)時(shí)交互，離不開(kāi)重大技術(shù)突破。在逐幀自回歸生成過(guò)程中，模型需納入隨時(shí)間累積的歷史軌跡 —— 例如，當(dāng)用戶一分鐘后重返某地時(shí)，模型需調(diào)用一分鐘前的相關(guān)信息。為實(shí)現(xiàn)實(shí)時(shí)交互，系統(tǒng)需每秒多次響應(yīng)新輸入并完成計(jì)算。

長(zhǎng)期環(huán)境一致性

AI 生成的世界要具備沉浸感，必須在長(zhǎng)時(shí)間內(nèi)保持物理一致性。但自回歸生成環(huán)境比生成完整視頻更具技術(shù)挑戰(zhàn)，因?yàn)檎`差會(huì)隨時(shí)間累積。盡管如此，Genie 3 生成的環(huán)境仍能在數(shù)分鐘內(nèi)保持穩(wěn)定，視覺(jué)記憶可追溯至一分鐘前。

提示示例：第一視角運(yùn)動(dòng)相機(jī)，記錄用滾筒刷給棕色房屋刷漆的過(guò)程。

建筑左側(cè)的樹(shù)木在整個(gè)交互過(guò)程中始終保持一致，無(wú)論是否出現(xiàn)在視野中。

Genie 3 的一致性是一種自然涌現(xiàn)的能力。NeRFs 和高斯濺射等方法也能生成可導(dǎo)航的一致性 3D 環(huán)境，但依賴明確的 3D 模型；而 Genie 3 生成的世界更動(dòng)態(tài)豐富，因?yàn)樗谑澜缑枋龊陀脩粜袨橹饚瑒?chuàng)建。

提示示例：第一視角無(wú)人機(jī)鏡頭，在冰島的狹窄峽谷中高速飛行，谷底有河流，巖石覆有苔蘚，正值黃金時(shí)刻；真實(shí)世界場(chǎng)景。

可提示的世界事件

除導(dǎo)航輸入外，Genie 3 還支持更靈活的文本交互 —— 即 “可提示的世界事件”。

這類事件能改變生成的世界（如調(diào)整天氣、引入新物體或角色），超越單純的導(dǎo)航控制，豐富交互體驗(yàn)。

這一能力還能擴(kuò)展 “反事實(shí)場(chǎng)景”（即 “如果…… 會(huì)怎樣”）的范圍，幫助智能體通過(guò)經(jīng)驗(yàn)學(xué)習(xí)應(yīng)對(duì)突發(fā)情況。

推動(dòng)具身智能體研究

為了測(cè)試 Genie 3 創(chuàng)建的世界對(duì)未來(lái)智能體訓(xùn)練的兼容性，我們?yōu)樽罱姹镜?SIMA 智能體生成了世界，這是我們用于 3D 虛擬環(huán)境的通用智能體。在每個(gè)世界中，我們指示智能體追求一組不同的目標(biāo)，它通過(guò)向 Genie 3 發(fā)送導(dǎo)航動(dòng)作來(lái)試圖實(shí)現(xiàn)這些目標(biāo)。像任何其他環(huán)境一樣，Genie 3 并不了解智能體的目標(biāo)，而是根據(jù)智能體的動(dòng)作來(lái)模擬未來(lái)。

由于 Genie 3 能夠保持一致性，現(xiàn)在可以執(zhí)行更長(zhǎng)的動(dòng)作序列，從而實(shí)現(xiàn)更復(fù)雜的目標(biāo)。我們預(yù)計(jì)這項(xiàng)技術(shù)將在我們邁向通用人工智能（AGI）的過(guò)程中發(fā)揮關(guān)鍵作用，并且智能體將在世界上扮演更重要的角色。

局限與挑戰(zhàn)

盡管 Genie 3 拓展了世界模型所能實(shí)現(xiàn)的范圍，但有必要承認(rèn)其當(dāng)前局限性：

有限的行動(dòng)空間。盡管可提示的世界事件允許進(jìn)行廣泛的環(huán)境干預(yù)，但這些干預(yù)并非一定由代理自身執(zhí)行。代理可直接執(zhí)行的行動(dòng)范圍目前仍受限制。
其他代理的交互與模擬。在共享環(huán)境中準(zhǔn)確模擬多個(gè)獨(dú)立代理之間的復(fù)雜交互，仍然是持續(xù)的研究挑戰(zhàn)。
真實(shí)世界位置的準(zhǔn)確表示。Genie 3 目前無(wú)法以完美的地理精度模擬真實(shí)世界位置。
文本渲染。只有當(dāng)輸入的世界描述中提供清晰易讀的文本時(shí)，才會(huì)生成。
交互時(shí)長(zhǎng)有限。該模型目前僅支持幾分鐘的連續(xù)交互，而非長(zhǎng)時(shí)間。

責(zé)任

我們相信，基礎(chǔ)技術(shù)從一開(kāi)始就需要對(duì)責(zé)任有深刻的承諾。Genie 3 中的技術(shù)創(chuàng)新，特別是其開(kāi)放式和實(shí)時(shí)能力，為安全和責(zé)任帶來(lái)了新的挑戰(zhàn)。為了在最大化益處的同時(shí)應(yīng)對(duì)這些獨(dú)特風(fēng)險(xiǎn)，我們與負(fù)責(zé)任發(fā)展與創(chuàng)新團(tuán)隊(duì)緊密合作。

在 Google DeepMind，我們致力于以既能增強(qiáng)人類創(chuàng)造力又能限制非預(yù)期影響的方式開(kāi)發(fā)我們一流的模型。隨著我們繼續(xù)探索 Genie 的潛在應(yīng)用，我們宣布將 Genie 3 作為一項(xiàng)有限的研究預(yù)覽發(fā)布，向一小部分學(xué)者和創(chuàng)作者提供早期訪問(wèn)權(quán)限。這種做法使我們能夠在探索這一新領(lǐng)域的過(guò)程中收集至關(guān)重要的反饋和跨學(xué)科視角，并繼續(xù)加深我們對(duì)風(fēng)險(xiǎn)及其適當(dāng)緩解措施的理解。我們期待與社區(qū)進(jìn)一步合作，以負(fù)責(zé)任的方式開(kāi)發(fā)這項(xiàng)技術(shù)。

下一步

我們相信 Genie 3 是世界模型的一個(gè)重要時(shí)刻，它將開(kāi)始對(duì)人工智能研究和生成式媒體等多個(gè)領(lǐng)域產(chǎn)生影響。為此，我們正在探索如何在將來(lái)讓更多測(cè)試者能夠使用 Genie 3。

Genie 3 可以為教育和培訓(xùn)創(chuàng)造新的機(jī)遇，幫助學(xué)生學(xué)習(xí)和專家積累經(jīng)驗(yàn)。它不僅能提供廣闊的空間來(lái)訓(xùn)練機(jī)器人等智能體和自主系統(tǒng)，還能實(shí)現(xiàn)智能體性能的評(píng)估，并探索其弱點(diǎn)。

在每一步，我們都在探索我們的工作的意義，并為其造福人類而開(kāi)發(fā)，安全且負(fù)責(zé)任。

可見(jiàn)即可游：Genie 3 的更多場(chǎng)景與玩法

官方視頻和第三方 Demo 網(wǎng)站（genie3.site）展示了 Genie 3 在真實(shí)場(chǎng)景中的生成能力：用戶可一鍵探索古城遺跡、瀑布峽谷、太空基地等多樣環(huán)境，并體驗(yàn)火山噴發(fā)、漂浮島嶼、傳送門等動(dòng)態(tài)事件。社區(qū)開(kāi)發(fā)者更可通過(guò)一句文本提示，自由構(gòu)建可交互的關(guān)卡，制作邏輯解謎、角色對(duì)話，甚至生成一段風(fēng)格獨(dú)特的動(dòng)畫(huà)短片。正如 The Decoder 所評(píng)論的，Genie 3 已初步具備“生成式游戲引擎”的雛形。

駕駛車輛行駛在爆發(fā)的火山旁邊

Genie 3 能夠生成完整的 3D 世界

電子游戲?qū)⒂肋h(yuǎn)不一樣

最新深度訪談：它靠什么實(shí)現(xiàn)？

機(jī)器學(xué)習(xí)節(jié)目Machine Learning Street Talk發(fā)布了一期專題訪談，邀請(qǐng) Genie 3 論文作者Jack Parker?Holder與Shlomi Fruchter詳細(xì)介紹模型設(shè)計(jì)和未來(lái)愿景。訪談指出，Genie 3 在架構(gòu)上融合了視頻生成技術(shù)和強(qiáng)化學(xué)習(xí)，采用自回歸方式按幀生成，并通過(guò)長(zhǎng)期記憶模塊保持物體的一致性。他們強(qiáng)調(diào)，模型目前仍是研究原型，尚未公開(kāi)接口，但未來(lái)有望與語(yǔ)言模型和三維 AI 相結(jié)合，成為開(kāi)發(fā)者構(gòu)建互動(dòng)內(nèi)容的基礎(chǔ)工具。這期節(jié)目還討論了世界模型對(duì)游戲產(chǎn)業(yè)、機(jī)器人訓(xùn)練和科學(xué)模擬的潛在影響，與 Jim Fan 所說(shuō)的“游戲引擎 2.0”概念相呼應(yīng)。

TLDR ：

“三秒鐘創(chuàng)造世界”：節(jié)目用一句形象的例子來(lái)說(shuō)明 Genie 3 的速度——你只需輸入“無(wú)人機(jī)飛過(guò)一片湖面”或“雪坡”，模型大約三秒就能生成這個(gè)逼真的世界，然后你可以在其中實(shí)時(shí)移動(dòng)和互動(dòng)。這一點(diǎn)讓它像即開(kāi)即玩的游戲編輯器。

涌現(xiàn)出的記憶一致性：受訪者解釋，Genie 3 并未顯式編程記住物體位置，但世界會(huì)記住你離開(kāi)時(shí)的狀態(tài)，當(dāng)你轉(zhuǎn)頭再看，物體依舊存在。這種“可靠的記憶”是自回歸生成架構(gòu)的自然產(chǎn)物，也是世界模型與普通視頻模型的根本區(qū)別。

世代飛躍：上一代 Genie 2 的互動(dòng)只有 10–20 秒，而 Genie 3 以 720p、24fps 的畫(huà)質(zhì)維持幾分鐘。Shlomi Fruchter 稱這是邁向通用世界模型的重要一步，因?yàn)殚L(zhǎng)時(shí)間的一致性讓 AI 代理能完成復(fù)雜目標(biāo)。

殺手級(jí)應(yīng)用：訓(xùn)練機(jī)器人：Jack Parker?Holder 指出，Genie 3 最大的用途不是娛樂(lè)，而是訓(xùn)練自動(dòng)駕駛汽車和機(jī)器人。在虛擬世界中，可以反復(fù)觸發(fā)罕見(jiàn)事件（例如鹿突然跳入道路）來(lái)教會(huì) AI 安全應(yīng)對(duì)。這比在真實(shí)道路上試驗(yàn)更安全、更高效。

“YouTube 2.0”式的開(kāi)放愿景：節(jié)目暢想這種技術(shù)可能催生新的內(nèi)容平臺(tái)——人們通過(guò)提示共同創(chuàng)建和探索互聯(lián)的世界，像升級(jí)版的 YouTube 或 VR 體驗(yàn)。這種開(kāi)放式創(chuàng)作也被稱為“世界事件可提示”，用戶不僅能導(dǎo)航，還能用文字改變天氣、加入角色。

世界模型是 AGI 的階梯：研究員強(qiáng)調(diào)，能模擬出多樣復(fù)雜世界的模型是通向通用人工智能的關(guān)鍵，因?yàn)樗鼈優(yōu)?AI 代理提供了無(wú)限的訓(xùn)練場(chǎng)。DeepMind 認(rèn)為 Genie 3 為未來(lái)與語(yǔ)言模型和 3D AI 融合奠定了基礎(chǔ)。

當(dāng)前局限：Genie 3 仍是研究預(yù)覽，動(dòng)作空間有限，物理和地理精度欠佳，多代理互動(dòng)和文字渲染有困難，持續(xù)互動(dòng)時(shí)間只有幾分鐘。因此它還無(wú)法取代真實(shí)引擎，但已顯現(xiàn)出巨大潛力。

內(nèi)測(cè)用戶這樣評(píng)價(jià) Genie 3：驚艷與不足并存

AI 研究者 Tejas Kulkarni 獲邀體驗(yàn) Genie 3。通過(guò)一整天的試用，他認(rèn)為這是自己使用過(guò)的首個(gè)泛化性如此強(qiáng)且具有長(zhǎng)期一致性的神經(jīng)世界模型。Tejas 總結(jié)了模型的亮點(diǎn)：

啟動(dòng)迅速，既適用于游戲場(chǎng)景也能泛化到工業(yè)或真實(shí)環(huán)境；
能在沒(méi)有游戲引擎的情況下學(xué)會(huì)非剛體物理，并出色地呈現(xiàn)全局光照和寫實(shí)環(huán)境；
對(duì) stylized 風(fēng)格的場(chǎng)景支持良好，適合概念藝術(shù)家和關(guān)卡設(shè)計(jì)；
模型的世界記憶在遮擋和多秒時(shí)間跨度下依舊保持一致。

他也指出了當(dāng)前明顯的局限：

模型仍會(huì)在經(jīng)典物理實(shí)驗(yàn)（如堆積木塔）中失敗，復(fù)雜指令序列也容易卡?。?/p>
社會(huì)與多智能體互動(dòng)尚未解決，1 對(duì) 1 戰(zhàn)斗游戲無(wú)法實(shí)現(xiàn)；
行為動(dòng)作有限，尚不能替代完整的游戲引擎；
盡管如此，他認(rèn)為這種技術(shù)將在未來(lái)五年顛覆游戲行業(yè)，并可能成為實(shí)現(xiàn)強(qiáng)人工智能的“最后一塊拼圖”

一個(gè)新范式的起點(diǎn)

Genie 3 目前只向少數(shù)學(xué)術(shù)機(jī)構(gòu)和創(chuàng)作者提供研究預(yù)覽，DeepMind 希望通過(guò)逐步擴(kuò)大測(cè)試來(lái)發(fā)現(xiàn)潛在風(fēng)險(xiǎn)。The Decoder 指出，模型存在交互時(shí)長(zhǎng)有限、動(dòng)作受限、多代理不穩(wěn)定、地理信息缺失等技術(shù)瓶頸，但這些問(wèn)題并不妨礙其成為未來(lái) AI 訓(xùn)練和內(nèi)容創(chuàng)作的重要平臺(tái)。

從游戲視角來(lái)看，NVIDIA AI 負(fù)責(zé)人 Jim Fan 形容 Genie 3 預(yù)示著“游戲引擎 2.0”時(shí)代：未來(lái)無(wú)需顯式 3D 素材和渲染管線，開(kāi)發(fā)者通過(guò)提示即可驅(qū)動(dòng)一塊數(shù)據(jù)權(quán)重生成完整世界。DeepMind CEO Demis Hassabis 也指出，世界模型讓 AI 能在豐富模擬中自主學(xué)習(xí)，是通向 AGI 的關(guān)鍵。隨著模型與大型語(yǔ)言模型、3D 重建技術(shù)結(jié)合，實(shí)時(shí)生成的互動(dòng)世界可能成為訓(xùn)練通用智能和構(gòu)建新媒體形態(tài)的基礎(chǔ)設(shè)施。

Genie 3 的發(fā)布標(biāo)志著世界模型進(jìn)入了可用、可玩的新階段：它不僅能根據(jù)文本生成高保真世界，還能讓用戶自由漫游、修改環(huán)境并保持記憶。盡管這一模型仍處于研究預(yù)覽階段，存在物理漏洞和多智能體限制，但其展現(xiàn)出的潛力讓人看到游戲開(kāi)發(fā)、機(jī)器人訓(xùn)練甚至科學(xué)模擬的全新可能。正如一位內(nèi)測(cè)者所說(shuō)，這也許是邁向真正 AGI 的“最后一塊拼圖”。

參考資料：

官方blog

https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

官方摘要

https://www.linkedin.com/posts/googledeepmind_introducing-genie-3-a-groundbreaking-world-activity-7358499030621908992-Mqr_/

媒體報(bào)道

https://www.theverge.com/news/718723/google-ai-genie-3-model-video-game-worlds-real-time

https://the-decoder.com/google-deepminds-genie-3-generates-interactive-3d-worlds-that-stay-consistent-for-multiple-minutes/

官方視頻

https://www.youtube.com/watch?v=PDKhUknuQDg

第三方的Demo合集

https://genie3.site/