![]()
作者 | 董道力
郵箱 | dongdaoli@pingwest.com
今天凌晨,Google DeepMind 向外部開放了 Project Genie,可以算是世界模型 Genie 3 的實驗性研究原型,也是這套世界模型第一次以可交互形態(tài)對公眾開放。
目前,該原型率先向年滿 18 歲的美國 Google AI Ultra(3個月125刀) 訂閱用戶開放。
1
實測 Project Genie
![]()
與視頻生成模型不同,Project Genie有兩個promtps填寫位置,左邊填寫環(huán)境的 prompt,右邊寫主角的 prompt,還能上傳參考圖片。選擇用第一人稱還是第三人稱。
![]()
在輸入提示詞后,短短一分鐘內(nèi),Project Genie 顯示世界模型視頻的“第一幀”,給用戶一個預(yù)覽,看看是否要進(jìn)行調(diào)整。
我嘗試了兩次同樣的提示詞,差別還是有的。
![]()
![]()
如果對預(yù)覽結(jié)果滿意,就可以直接開始創(chuàng)造世界。
當(dāng)世界生成完成后,用戶即可接管角色,在世界中進(jìn)行自由探索。
目前 Project Genie 支持約 1 分鐘的可交互探索時長,分辨率為 720p。雖然時間和分辨率不是很前沿,但世界模型在這個時間點,最重要的是“控制”。
Project Genie 的人物控制方式接近傳統(tǒng)游戲邏輯,用戶可以使用 WASD 控制角色前后左右移動,同時用方向鍵可獨立控制視角進(jìn)行前后左右的鏡頭轉(zhuǎn)動,最驚喜的是人物可以跳。
相比人物位移,視角移動明顯更加流暢,響應(yīng)延遲很低,整體操作手感更接近實時渲染而非視頻回放。同時,系統(tǒng)內(nèi)置了基礎(chǔ)的物理約束,例如角色行進(jìn)到場地邊緣時會自然停下,而不是穿模或繼續(xù)滑行。
從生成質(zhì)量來看,Project Genie 與傳統(tǒng)視頻生成仍存在明顯差異,但在“世界還原”層面已經(jīng)相當(dāng)完整。prompts中提到的球場、草地、傍晚光照、電子大屏、觀眾揮舞旗幟都被還原。此外,人物的初始位置同樣符合語境,從中圈附近出發(fā),身著簡潔的訓(xùn)練服,與整體世界設(shè)定保持一致。
我們再來試試用圖片生成世界。
![]()
這一次我們上傳的是《艾爾登法環(huán)》的游戲畫面。Project Genie 基本復(fù)現(xiàn)了原圖的環(huán)境特點,具體效果直接看生成視頻即可。
Project Genie 生成的世界是可以反復(fù)進(jìn)入的。在這次測試中,我們選擇了與之前足球場案例不同的路徑,不再是平面移動,而是嘗試縱向位移。
這個世界中人物初始位置就在懸崖邊緣。于是我們讓人物直接跳下懸崖。
從結(jié)果來看,表現(xiàn)相當(dāng)完美。人物起跳、下落、落點的空間關(guān)系在視覺上是合理的,而且角色順利落到下方路徑,沒有出現(xiàn)明顯的空間錯位。
第二次跳崖時,角色在下落過程中甚至因為蹭到巖壁而短暫“卡”了一下,這個細(xì)節(jié)很關(guān)鍵,說明Project Genie是真的在計算角色與環(huán)境之間的物理碰撞,而不是簡單把物體抽象成一個個立體圖像,細(xì)節(jié)用視頻補足。
細(xì)節(jié)層面也有加分項。起跳時,腳下會揚起灰塵,落地瞬間,人物會有輕微屈膝的緩沖動作。這些都增強了動作的可信度。當(dāng)然,還是有點瑕疵,在最后一個畫面中,角色實際應(yīng)該落在水面上,但并沒有出現(xiàn)水花效果,人物短暫懸浮在水面之上。
另外,更值得注意的是世界風(fēng)格的穩(wěn)定性。在人物進(jìn)行了大幅度、連續(xù)的空間移動之后,整個世界并沒有隨之“變形”或風(fēng)格漂移。金色樹葉的色調(diào)、末日感的整體氛圍、懸崖與斷壁的結(jié)構(gòu)關(guān)系,都被完整地保留下來,沒有因為視角和位置變化而崩壞。
這一次縱向移動的測試,比單純的平面行走更能體現(xiàn),Project Genie 不只是“看起來像一個世界”,而是在嘗試維持一個在運動中依然自洽的3D空間結(jié)構(gòu)。
我們再來嘗試一個第一視角,并且嘗試給生成的世界換一個截然相反畫風(fēng),觀察 Project Genie 對整體風(fēng)格切換的處理能力。
![]()
在初始狀態(tài)下,世界細(xì)節(jié)依然保持在一個不錯的水準(zhǔn)。但真正的測試從這里開始,我們在已有世界的基礎(chǔ)上,額外輸入了一段整體改變世界風(fēng)格的 prompt,試圖將原本偏寫實的環(huán)境,整體轉(zhuǎn)化為像素畫風(fēng)。
![]()
結(jié)果并沒有延續(xù)前幾個案例中的驚艷表現(xiàn)。風(fēng)格變化更多集中在角色層面,人物被明顯像素化,隊友也趨向于貼圖式呈現(xiàn),但作為主體的環(huán)境幾乎沒有發(fā)生根本變化,地形、光影和空間結(jié)構(gòu)依然保持著偏寫實的渲染方式。換句話說,風(fēng)格切換并未真正作用于“世界”,而更像是疊加在角色之上的一層外觀修改。
與此同時,風(fēng)格修改還帶來了一定的細(xì)節(jié)損失,比如信號煙霧彈消失,變成了滅火器,場景語義出現(xiàn)了明顯的偏移。
Project Genie 可以在同一世界內(nèi)維持結(jié)構(gòu)穩(wěn)定,但對已生成世界進(jìn)行整體風(fēng)格重寫,仍然明顯弱于從零生成時的表現(xiàn)。當(dāng)然,用AI生成內(nèi)容是一個反復(fù)抽卡的過程,也許多嘗試幾次,Project Genie 就可以給一個更加合理的世界。
1
Project Genie最大的意義是證明其可行性
如果把 Project Genie 放進(jìn)更大的生成模型譜系中來看,它現(xiàn)在所處的位置其實非常清晰:世界模型,正在經(jīng)歷自己的「視頻生成 1.0 時期」。
今天的視頻生成模型,已經(jīng)卷到了分辨率、運鏡語言和敘事連貫性,很多作品看起來已經(jīng)接近“可以直接作為內(nèi)容使用”。但回到最早階段,視頻生成真正令人震撼的,并不是畫面質(zhì)量,而是那一刻人們意識到,畫面,真的能連續(xù)地動起來。
Project Genie 所代表的世界模型階段,與之高度相似。
它并不是在和游戲或影視內(nèi)容比“畫得多好”,而是在回答一個更基礎(chǔ)的問題:一個由模型生成的世界,能不能在被持續(xù)操作時不迅速崩潰。
因此,Project Genie 在設(shè)計上做出了非常明確的取舍。它主動犧牲了分辨率、畫面精度和生成時長,把算力優(yōu)先用在維持一個可被反復(fù)進(jìn)入、持續(xù)探索的環(huán)境。你能不能站在懸崖邊緣停下,能不能跳下去,會不會撞上巖壁,移動之后世界風(fēng)格是否還能保持一致,這些問題,遠(yuǎn)比“畫面像不像某款游戲”更重要。
從技術(shù)層面看,Project Genie 能成立,并不是因為某一個單點突破,而是因為它同時滿足了三件此前并不容易同時做到的事情:狀態(tài)可持續(xù)、空間一致、行為可約束。
Project Genie(Genie3)的技術(shù)難點在于維護(hù)一個隱式的世界狀態(tài)。用戶的輸入不再只是觸發(fā)一次新的畫面補全,而是被當(dāng)作對世界狀態(tài)的真實干預(yù)。角色是否能前進(jìn),取決于地形是否允許,是否會墜落,取決于重力和邊界,世界風(fēng)格是否延續(xù),取決于狀態(tài)是否被連續(xù)繼承。
這意味著模型做的已經(jīng)不只是“預(yù)測下一幀”,而是在給定歷史、規(guī)則和動作條件的前提下,推演世界接下來應(yīng)該如何演化。
也正因為如此,Project Genie 看起來既不像一個完整的游戲,也不像一個視頻工具。它更像一個尚不成熟、但已經(jīng)能夠自洽運轉(zhuǎn)的系統(tǒng)原型。
所以,Project Genie 現(xiàn)在最重要的意義,它第一次讓普通用戶直觀地意識到:世界模型不只是論文里的概念,它真的可以被構(gòu)建、被進(jìn)入、被操作,并且在一定范圍內(nèi)持續(xù)成立。
![]()
點個“愛心”,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.