Google DeepMind 剛剛放出了 Genie 3:世界模型!
輸入一句話,便給你生成一個 3D 世界,然后你可以在里面自由走動
雪地里走兩步,腳印都給你渲染出來了
這個視頻里的雪山場景,提示詞:高海拔開放世界,可變形的雪地地形
角色設定是:一個敏捷的登山者,可以全方向移動和跳躍
生成之后,你用鍵盤控制登山者在雪地里走,雪會被踩出痕跡,視角跟著你的操作實時變化
用一句話生成的海洋,可以沖浪
這個沖浪的提示詞更長:無盡的海洋,巨大的雷鳴般的海浪,巨大的藍綠色浪管在陽光下翻滾,成百上千的海鷗飛得很近,偶爾會擋住視線
角色設定:一塊白色沖浪板的板頭,直指海浪的浪管
海浪、海鷗、陽光...等等都進行了實時渲染,而你可以控制沖浪板在浪里穿行
要知道,Sora 生成的是一段固定的視頻,你只能看
Genie 3 生成的是一個世界,你可以操控,這便是「世界模型」
怎么玩到
現在只對美國用戶開放,需要訂閱 Google AI Ultra,$250/月
入口在 Google Labs 里,產品叫 Project Genie
![]()
https://labs.google/fx/projectgenie
在這里,訪問別人創建的世界,比如旁邊這個飛機
![]()
一花一世界,一葉一菩提
當然,也可以自己創建一個世界,點這個 Create your own 進去就行了
短暫載入后,創建界面長這樣
![]()
左邊寫環境提示詞,右邊寫角色提示詞
左邊寫環境提示詞,右邊寫角色提示詞:
環境提示詞:可以描述你想要的世界,比如「木葉村的街道,有拉面店和火影巖」
環境提示詞:可以描述你要扮演的角色或者控制的物體,比如「童年的漩渦鳴人」
填完點生成,等幾秒鐘,世界就出來了,這是一個可以游玩的世界
操作方法,就類似常規的 3D 游戲:
? W、S、A、D 控制前后左右移動
? 上下左右箭頭控制視角轉動
? 空格鍵跳躍
? 但鼠標沒啥用
每次能玩 60 秒,時間到了可以重新生成,這里我放一個我的錄屏,可以看看
它能生成什么樣的世界
講真的,這些東西真的太牛逼了,我這里我用一些來自官方的例子,和大家一起看看
物理世界
從沙漠到海洋到極端天氣。水有動態物理效果,雪地可以踩出痕跡,紙飛機掠過水面會有波紋


生態系統
動物有自己的行為模式。狐貍在草地上跑,鷹在山谷里滑翔,植物細節也能渲染


動畫和奇幻風格
不只是寫實。黏土定格動畫、水彩畫、針織毛氈,各種風格都能生成。有個演示是一只黏土小貓在圖書館里走,另一個是毛氈蝸牛在花園里爬


不同地點
雪山、外星地表、維多利亞街道、古雅典。有個演示里還有傳送門,從維多利亞街道走進去,出來就是沙漠



環境一致性
你在世界里走了一圈回來,之前看到的東西還在原位
這其實比生成一整段視頻更難。Genie 3 是自回歸生成,一幀一幀往后推,誤差會隨時間累積。現在能保持數分鐘的一致性,離開視野的物體大約一分鐘內回去還能看到


可提示的世界事件
你在探索過程中可以用文字改變世界。天氣變化、添加新物體、引入新角色,都可以。有個演示是第一人稱給房子刷油漆,油漆痕跡會留在墻上
核心能力
Google 稱 Genie 3 是「第一個實時交互的世界模型」(the first real-time, interactive world model)
![]()
實時
20-24 幀每秒,720p 分辨率。你操作的時候,畫面實時生成,沒有明顯延遲
世界一致性
你在世界里走了一圈回來,之前看到的東西還在原位。官方說能保持數分鐘的一致性,之前離開視野的物體,大約一分鐘內回去還能看到
從文字直接生成
Genie 1 需要圖片輸入,Genie 2 需要單張圖片,Genie 3 直接用文字描述就行
自己學會的物理規則
水流、重力、光影、物體碰撞,這些物理效果是模型從視頻數據里自己學出來的,沒有硬編碼物理引擎
更牛逼的用途
在 Google 的說法中,除了給大家玩,這個模型還有一個更牛逼的用途:讓真實智能體,在仿真世界里訓練
比如說 SIMA 2,也是來自谷歌,一個能在 3D 游戲里執行任務的 AI,通過讀取屏幕畫面,用虛擬鍵盤鼠標,來完成游戲內的操作

SIMA 2 在 Genie 3 里執行任務
現在把 SIMA 2 放進 Genie 3 生成的世界里。給它設定目標,比如「走向亮綠色的垃圾壓縮機」,它能在生成的倉庫環境里完成導航

SIMA 2 自我改進循環
更有意思的是自我改進。不少第一代智能體失敗的任務,經過幾輪自我訓練之后就能完成,不需要人類額外標注數據
![]()
SIMA 2 在 Genie 3 里自我改進
世界模型能給智能體提供無限多樣的訓練環境,不用在真實世界里試錯
當前限制
對于當前版本,依然有許多限制,Google 特別給列了出來
![]()
交互時長有限
每次只能玩幾分鐘,不能連續玩幾個小時
動作空間有限
角色能做的動作目前只有基本的移動和跳躍,復雜動作做不了
多智能體交互難
多個獨立智能體在同一個環境里互動,目前還是研究難題
真實地點不精確
沒法完美復刻真實世界的具體位置
文字渲染有問題
除非在提示詞里明確寫了,否則生成的世界里文字通常不清晰
還有一條沒在官方限制,但更實際的:$250/月
最后
以 Genie3 的夢境,作為收尾
一花一世界,一夜一菩提

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.