<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      劈柴哥和哈薩比斯親自站臺!谷歌世界模型Project Genie刷屏,幕后團隊揭秘60秒不是極限,內存是巨大約束

      0
      分享至


      作者 | 高允毅

      世界模型真的變天了!

      今天,谷歌正式發布重磅世界模型原型產品“Project Genie”,只需一句話或一張圖,就能一鍵生成可玩、可交互的實時虛擬世界。它的重磅程度,讓谷歌“掌舵人”劈柴哥和 Google DeepMind 創始人哈薩比斯親自為它站臺。



      在 Project Genie 生成的虛擬世界中,你可以用 WASD 鍵移動角色、旋轉視角、跳躍,在生成世界自由探索。更重要的是,其生成畫面的精細度、整體完成度,已經明顯超出以往研究型 Demo 的范疇,在觀感上直逼成熟游戲產品。

      過去幾年,世界模型一直被認為是通往 AGI 的重要路徑,但始終存在一個根本問題:它們更像會動的視頻,而不是真正的環境。

      具體來說,早期世界模型普遍存在幾大短板:

      • 生成世界質量偏低,結構簡單

      • 難以實時交互,或只能交互一兩步

      • 長期一致性差,畫面和規則會“漂移”

      • 不符合物理和因果邏輯,更像夢境而非世界

      而 Project Genie,第一次把這些問題同時拉到了可用水平。

      Project Genie 是一個基于Genie 3、Nano Banana Pro 和 Gemini構建的原型 Web 應用,其中的核心是谷歌最新的世界模型 Genie 3。

      與以往“先生成完整視頻”的方式不同,Genie 3 采用自回歸生成機制:它會根據世界描述和用戶操作,逐幀生成環境狀態,而不是播放預先生成好的內容。

      這帶來了幾個關鍵變化:

      • 長期一致性 生成的世界可以在數分鐘內保持穩定,不會快速崩壞;系統還能“記住”用戶造成的關鍵變化,記憶時間最長可達約一分鐘。

      • 真正的實時交互 世界以 20–24 幀 / 秒運行,用戶的操作會即時反饋到環境中,而非觸發預設結果。

      • 更高質量的視覺表現 生成畫面分辨率約為 720p,整體真實感和細節水平明顯高于以往世界模型,為智能體理解復雜環境提供了更可信的視覺基礎。

      谷歌早在 2025 年就將 Genie 3 稱為“通往 AGI 的關鍵一步”。而在 Project Genie 的官方頁面中,谷歌再次強調:

      Genie 3 讓智能體能夠預測世界如何演化,以及自身行為如何影響世界,這是實現推理、規劃和現實行動的基礎。

      可以說,在 Project Genie 身上,已經釋放出一個非常明確的信號:世界模型正在從長期的前沿研究方向,正式邁入可落地、可探索的關鍵階段

      一旦世界模型能夠穩定生成高質量、可交互、具備長期一致性的環境,其應用邊界將被迅速打開。

      無論是自動駕駛中的復雜場景模擬、具身智能的環境理解與決策訓練,還是游戲開發、影視制作、互動教育與新型媒體內容創作,世界模型都展現出極具想象空間的潛力。

      據 The Verge 報道,谷歌選擇在這一時間點推出 Project Genie,部分原因在于希望觀察用戶的真實使用方式,從而發現此前尚未預料到的新應用場景。

      Google DeepMind 產品經理 迭戈·里瓦斯透露,谷歌內部已經對 Genie 在電影制作、互動教育媒體等領域,幫助創作者進行場景可視化與世界構建的潛力感到興奮。

      目前,Project Genie 仍是實驗性產品:

      • 單個世界最長探索60 秒

      • 分辨率約 720p,幀率約 24fps

      • 僅向美國地區、18 歲以上的 Google AI Ultra 訂閱用戶開放

      Project Genie 發布后迅速引發熱議。馬斯克第一時間發文祝賀


      關于 Project Genie 的討論,也在 X 上迅速擴散,不少網友將其稱為又一個“變革時刻”。





      對此,Project Genie 負責人之一 Jack Parker-Holder 表示:

      Genie 3 感覺像是世界模型領域的一個分水嶺。我們現在可以生成任何可想象世界的、持續數分鐘的實時交互式模擬。這可能正是具身通用人工智能此前缺失的關鍵一環。

      1 網友們玩瘋了,在游戲世界釋放創意

      具體來看,Project Genie 的使用流程并不復雜。進入頁面后,用戶可以直接從 Google 預設的多個世界模板中選擇,也可以完全自定義環境和角色,構建一個專屬的虛擬世界。


      為實現更精準的控制,Project Genie 會用 Nano Banana Pro 的能力,先為生成世界打個“草稿”。

      整個頁面被清晰地分成左右兩部分:

      • 左側用于填寫環境的 prompt,例如地形結構、視覺風格和整體氛圍;

      • 右側則用于描述主角的形象與設定,并可選擇第一人稱或第三人稱視角,從而提前確定進入世界后的體驗方式。

      完成初步設定后,Genie 會先生成一個縮略圖,可以對生成內容進行預覽和微調。如果符合預期,就能進入生成世界,開始實時交互與自由探索。Genie 3 的響應延時非常低,在控制角色移動時,會帶來強烈的沉浸感。

      在官方案例中,你可以把自己變成一個球,在草原上自由滾動。

      可以看到,如果轉換視角,球滾動留下的痕跡并不會消失,新生成的內容也不會覆蓋舊區域。這一細節直觀地體現了 Project Genie 所強調的世界一致性。

      在另一個官方案例中,你可以變成刷墻工人,想刷哪面墻就刷哪面,整個虛擬世界可以實時交互,且看起來十分合理。

      谷歌表示,這是想象力空間的無限釋放,無論是自然世界或現實場景,還是構建動畫、小說中的奇幻世界,甚至是突破時間與空間限制的未來世界,都可以被創造出來。

      不少網友迅速上手,開始“放飛自我”式創作,其中,各類游戲風格世界不斷涌現。

      比如在沙灘上騎摩托:

      更絕的是直接制作山寨版“任天堂”游戲。比如馬里奧系列,《塞爾達傳說》,《銀河戰士》。

      即便拋開體驗層面的不足不談,Project Genie 在生成世界的質量與完成度上,依然足以令人震撼。這也難免讓人產生進一步的聯想,游戲從業者會不會大規模失業?

      這一擔憂并非空穴來風。根據 Informa 本周發布的游戲開發者大會(GDC)報告,33% 的美國受訪游戲開發者、以及 28% 的全球受訪游戲開發者表示,他們在過去兩年中至少經歷過一次裁員。Project Genie 可能會進一步擴大這種趨勢。

      不過,圍繞 Project Genie 的能力邊界,也有人提出質疑。

      The Verge 的記者親自上手試驗后認為,從“游戲”的角度來看,Project Genie 所生成的“可玩世界”顯得相當單調。

      除了基礎移動操作外,玩家幾乎無事可做。沒有任務目標,也缺乏音效反饋。更糟糕的是,輸入延遲時有發生,甚至會出現角色失控、只能旋轉視角的情況,嚴重影響整體體驗的流暢度。

      該記者還提到,在僅有 60 秒 的探索時間內,世界的一致性并不穩定。系統有時會“忘記”此前生成的內容,例如滾動的小球留下的顏料痕跡會突然消失,已生成的道路也可能被重新覆蓋為草地。這些現象讓人難以確認模型是否能夠持續、可靠地維護同一個世界狀態。

      在內容生成層面,Project Genie 對知名游戲 IP 也存在明顯限制。測試中,索拉、唐老鴨、高飛、杰克·斯凱靈頓等角色均無法直接用于生成可交互世界,相關內容在進入實際體驗階段會被系統攔截。


      目前,與生成世界交互的智能體只能執行較為有限的操作,同一世界中多個模型之間也難以協同互動。此外,Genie 在渲染清晰文本、還原現實世界具體地點方面仍存在困難,智能體對控制指令的響應有時也會出現異常延遲。

      對此,谷歌方面回應稱,Genie 并非游戲引擎,團隊更關注它在增強創意過程、提升構思能力以及加快原型制作方面所展現出的潛力。

      在 Geinie 3 官網上也特別強調,目前產品仍處于早期研究階段,因此會有:生成的世界可能看起來并不完全逼真,也不一定總是嚴格遵循提示、圖像或現實世界的物理規律;角色有時可能難以控制,或者控制延遲較高;生成時間受限等問題。

      2 Project Genie 團隊深度揭秘關鍵問題

      在 Project Genie 上線不久,其背后的核心團隊第一時間接受采訪,包括 Google DeepMind 研究總監 Shlomi Fruchter、Google DeepMind 的研究科學家 Jack Parker-Holder、產品 Diego Rivas,他們都對世界模型長期關注,在這次訪談中深度揭秘 Project Genie 的關鍵問題。

      這次對話討論了:什么是世界模型?為什么只能生成 60 秒?Project Genie 的研發歷程是什么?它未來真正可能改變的是哪些領域?

      他們首先承認 Project Genie 的強大確實源于谷歌視頻生成技術的積累,但同時他們也強調,Genie 并不是更強的“視頻模型”,而是人類第一次可以實時走進、操控、改變的生成世界。

      其中的核心差異是,世界模型是逐幀實時生成,能與過去保持物理與視覺一致性,并且用戶可隨時干預。這對延遲、內存、算力的要求,比普通視頻生成高得多,也是更前沿、更有挑戰的方向。

      針對不少人抱怨“60 秒不夠”的問題,他們表示這是在服務成本、系統穩定性和體驗質量之間做出的權衡。他們其實已經做出過更長時間的生成世界,但在實際測試中發現,隨著生成時間拉長,世界的動態感反而會逐漸減弱。

      研究員表示“與其花兩分鐘體驗一個世界,不如花一分鐘體驗兩個不同的世界,體驗感會更好。”

      針對模型的生成速度,他們表示已經夠快了,短期內進一步“加速”并沒有太大意義。接下來,他們更重要的研發方向,是降低算力成本,讓這種能力能夠被更多人真正用得起。

      在產品定位上,他們并不把 Genie 看作一款游戲,而更像是一個正在快速演化的實驗場:

      • 一方面,多人互動、長期一致性、復雜動態仍然是明確的技術瓶頸;

      • 另一方面,娛樂、教育、具身智能、機器人訓練等方向,已經展現出非常清晰的應用前景

      回顧產品研發歷程,從論文階段的 Genie 1,到今天普通用戶可以親自上手體驗的 Genie 3,這背后其實是谷歌一整套高度協同的跨部門合作。

      谷歌實驗室與谷歌創意實驗室是研發的核心力量,而服務團隊、基礎設施團隊和溝通團隊則共同兜底,確保這項起源于強化學習的前沿研究,能夠被真實用戶理解、體驗并持續使用。

      當團隊回看去年八月時,他們很清楚,當時外界已經迫不及待想“走進這個世界”,但 Genie 仍然只是一個規模龐大的研究項目。即便如此,研發人員腦海中已經浮現出一系列潛在應用場景,其中最清晰的方向之一,正是具身智能。一個標志性的例子,是他們與 Simmer 項目的長期合作。

      Simmer 是由雙子座模型驅動的目標導向智能體,能夠在 3D 世界中執行復雜任務。過去,它只能在少數幾個固定游戲環境中訓練;而現在,借助 Genie 3,只需一句文本指令,就能生成一個全新的、甚至是照片級寫實的虛擬世界,把智能體直接“放進去”完成任務。

      從 Nano Banana Pro 的圖像創作,到谷歌視頻生成的成熟,再到可交互的世界模型 Project Genie ,生成式技術正在構成一個連續體,世界模型將成為第三次技術躍遷。

      以下是播客的更多細節,歡迎來看:

      為什么只能 60 秒?

      主持人:我很好奇,這背后的物理逼真度,是不是和我們在 VO(谷歌的視頻生成模型)項目上取得的研究突破有關?感覺兩者之間有相似之處。

      研究員:二者絕對是相關的,而且世界模型的研發難度其實更高。普通的視頻模型,能在整個視頻的時間線上自由調整過去和未來的幀,自由度很高 —— 就像有一塊畫布,模型能隨時間生成視頻,在畫面的各個位置做微調,讓整體效果連貫美觀。

      世界模型的難點在于,世界是持續演變的,每一幀的輸入都是未知的,模型必須保證生成的畫面既和過去的內容連貫,又能匹配用戶當下的操作,所以技術難度會大很多。

      其實開發 Genie 1 時,我們用的是 Imagine 模型,當時我們的模型效果并不好,而且想要生成合適的圖像也非常困難。Nano Banana Pro 是在Genie 3之后推出的,技術進步的速度真的令人驚嘆。也許未來某一天,我們定義虛擬世界的方式,將不再局限于圖像和文本,但就目前而言,這種方式已經給了用戶足夠的創作靈活性。

      主持人:這個模型的復雜度上限在哪里?比如能不能在同一個世界里加入大量并行的互動元素?模型會在什么情況下出現效果衰減?

      其實 Nano Banana Pro 就是個很好的例子,如果一張圖片里有 10 個人臉,想要對這張圖進行編輯,模型就容易出問題。所以我想知道,Genie 3 的自然性能邊界在哪里?

      研究員:這個模型肯定不是完美的,目前它還只是一個研究預覽版本。我們希望讓大家親自體驗,看看它的優勢在哪里,不足又在哪里,我們也能從用戶反饋中學習和優化。

      目前模型在各類創意環境的視覺呈現上做得不錯,畫面可以非常精致,但在世界的動態表現上還有短板 —— 有時候初期的動態效果很好,但時間久了,動態感會逐漸減弱,這也是我們正在優化的點。不過它的表現已經足夠令人驚喜了,所以還是建議大家親自上手試試,看看哪些玩法能達到理想效果。

      研究員:不過說到延遲問題,還有很多技術點需要考慮。Genie 3 的研發有一個核心約束:我們希望實現特定操作頻率下的實時低延遲,也就是說,用戶操作的往返延遲要極低。同時,內存也是一個巨大的約束 —— 模型的上下文長度越長,通常算力成本就越高,運行速度也會越慢。

      所以研發的核心挑戰,就是平衡這些相互沖突的目標。而在研究層面,我們正在所有這些領域持續優化,我們相信,模型的性能會不斷提升,變得更強大、更快、更經濟,這也是行業的整體發展趨勢。

      主持人:我還有個問題,模型的生成時長是人為限制在 60 秒,還是真的能實現 3 到 5 分鐘的連續生成?

      研究員其實我們已經做出過能連續生成更久的演示版本了,但我們覺得 60 秒是一個比較合適的時長 —— 既能讓用戶充分體驗虛擬世界,又能保證為足夠多的用戶提供服務,這其實是在服務成本上做的權衡。

      而且就像我們之前提到的,生成時間越長,世界的動態感會逐漸減弱。所以我們覺得,與其花兩分鐘體驗一個世界,不如花一分鐘體驗兩個不同的世界,體驗感會更好。當然,如果用戶反饋希望延長時長,我們也會做出調整。

      這也和虛擬世界的類型有關,比如如果你在體驗高山速降滑雪,兩分鐘的時長會很過癮,因為整個過程是持續的動態體驗;但如果只是探索圖書館,兩分鐘可能就沒那么有趣了。

      主持人:是啊,人們總是能很快適應新的技術體驗。但對我來說,這個模型的表現依然令人難以置信。你之前被問到能不能讓模型運行得更快,現在的速度已經到極限了嗎?

      研究員在當前實時交互需求下,生成速度已經足夠快,短期內進一步加速的意義不大。因為模型是實時生成虛擬世界的,速度再快其實也沒有意義了 —— 它的生成速度已經和用戶的體驗速度完全匹配。接下來我們的研發重點,會放在降低算力成本上,這樣才能讓更多人用上這款產品。同時,在保持速度的前提下,不斷增加新功能,這本身也是一個巨大的挑戰,我們希望在各個方面都把模型做得更好。

      背后的故事:谷歌跨團隊協作

      主持人:聊完當下的體驗,我特別想知道模型的未來迭代方向。不過在聊未來之前,我們先回顧一下研發歷程吧。我們八月份發布了精靈 3 號的首支演示視頻,之后啟動了可信測試,不斷迭代產品、搭建基礎設施。能不能跟大家快速講講,從一支驚艷的演示視頻、小規模的早期測試,到正式推出面向用戶的精靈計劃,這中間都經歷了什么?

      研究員:首先,八月份發布模型和演示視頻后,我們讓一小部分人體驗了產品,核心是為了收集反饋 —— 因為這是一款全新的應用,一種全新的體驗,我們需要思考如何負責任地將它推向市場。

      從那以后,我們的大部分工作都集中在基礎設施、服務架構和成本控制上,畢竟我們希望能讓盡可能多的用戶體驗到它。而美國的谷歌 Ultra 訂閱體系,能讓我們觸達足夠多的用戶,收集到第一手的反饋:比如用戶覺得哪些功能有用,會如何和產品互動,哪些玩法體驗最好。這段時間里,我們也在持續完善可信測試項目。

      這其實是模型開發周期中最核心的階段,因為我們能從不同類型的用戶身上學到很多東西,無論是創意工作者,還是教育領域的從業者,都能給我們帶來豐富的洞察,讓我們知道模型目前的實際應用價值、未來的發展方向,以及哪些體驗是用戶最期待的。

      回頭看八月份,當時我們知道大家肯定想體驗這款產品,但它那時還只是一個大規模的研究項目。我們腦海里有很多應用場景,比如智能體、機器人這類具身智能領域,都能用到這項技術。去年年底還有一個和我們類似的項目發布,他們也用Genie 3來訓練游戲智能體。

      從消費端的角度來看,我們覺得這個產品會很有吸引力,所以想收集用戶反饋,但當時也不確定是否已經到了面向更多用戶發布的時機。而迭戈主導的可信測試項目,讓我們發現,用戶第一次上手這款產品時,都會有驚艷的體驗。我們希望深入了解更多的應用場景,所以這次的發布,也是我們在這方面邁出的一大步。

      一年前,我根本沒想到這個模型能有這么強的吸引力,但現在它已經成為一款非常有趣的產品,我們也很期待大家會用它來做什么。

      主持人:聊完產品和技術,我們再來聊聊谷歌的跨團隊合作吧。顯然,從你們的分享和幕后工作來看,打造這款產品的難度非常大。谷歌內部有哪些團隊參與了 Genie 3 和 Genie 的研發?

      研究員:幕后參與的團隊非常多,谷歌實驗室、谷歌創意實驗室是核心—— 畫廊里的那些虛擬世界,大多是創意實驗室的作品;還有服務團隊、基礎設施團隊,基本上有一個完整的幕后團隊在推動這項工作。從八月份發布模型到現在,我們一直在全力沖刺,所有團隊的付出都堪稱英勇。

      我們還和溝通團隊深度合作,因為想要向大家解釋一款全新的模型,一種大家從未體驗過的技術,是一個非常細致的話題 —— 它起源于強化學習這個相對小眾的領域,現在卻被媒體、社交媒體上的各類人群廣泛討論,所以用正確的方式傳遞這項技術,非常重要。

      回顧這個領域的研究起點,我們甚至不確定這項技術能否成功落地。而現在,我們讓它實現了實時交互,達到了不錯的畫質,完成了從研究構想到發布模型,再到推出面向用戶的體驗產品的閉環,這一點讓我非常興奮。這并非理所當然,也充分體現了谷歌內部跨技術棧的團隊協作能力,這種能力非常獨特。

      主持人:我們在鏡頭外還聊過,不僅是 Genie 3,谷歌所有模型的能力都在不斷拓展,而這和模型的訓練方式息息相關。杰克,你之前還尖銳地提到,這些模型其實并沒有針對任何特定的應用場景進行訓練,卻能在各個領域實現很好的泛化能力,能不能再聊聊這一點?

      Jack:沒錯,我們一開始其實并不知道這個模型的具體應用場景。去年年底,Genie 團隊還在做純粹的研究項目,Genie 1最初只是一篇研究論文,和 VO(谷歌的視頻生成模型)完全不同。

      與此同時,我們還在做 Doom 游戲引擎的相關研究,這項研究充分展現了實時交互的潛力,但它僅適用于 Doom 這一個特定的游戲世界,迭戈可以再聊聊這一點。

      另外,2024 年 12 月 VO(谷歌的視頻生成模型)2 的發布,在 AI 領域已經是很久以前的事了,但當時我看到它的效果時就覺得,視頻生成技術已經成熟了,視覺質量達到了行業前沿,值得我們深入探索。

      于是我們達成共識,認為這項技術的潛力無限,隨后組建了跨團隊的研發小組,匯集了各個領域的專家 —— 他們都在不同的技術領域有積累,我們相信把這些技術結合起來,會產生不可思議的效果。而我們的研發,并非針對某個特定的下游應用場景,而是因為它蘊含著無數的應用可能。

      最酷的是,我們腦海里有一些預想的應用場景,比如和Simmer 項目的合作,我們和這個項目的合作已經有很長時間了,他們也參與了 Genie 2 的研發,體驗過 Genie 2,現在已經基于 Genie 3 發布了相關產品。

      Simmer 是我們最強大的目標導向智能體之一,能在 3D 世界中互動,是由雙子座模型驅動的 —— 你可以在 3D 世界中向它輸入文本指令,它就能完成各種不同的目標,泛化能力非常強,還能通過自我提升學習。這也是我們邁向通用人工智能、具身智能的重要方向。

      去年年底我們發布了這款智能體,他們就用 Genie 3 的虛擬世界來探索智能體的能力。要知道,Simmer 原本只在幾款游戲中接受過訓練,但現在借助 Genie 3,你只需輸入文本,就能創建一個全新的、甚至是照片級寫實的虛擬世界,然后把智能體放進去,看它完成各種任務。這兩個項目的結合,可以說是水到渠成。

      未來的應用領域:娛樂、教育、具身智能

      研究員:從應用層面來說,我個人對娛樂和教育領域的應用最期待。我們希望讓更多人體驗這款產品,看看憑借現有的技術,現在能打造出哪些應用。教育領域是我們重點關注的方向,比如讓人們在虛擬世界里互動學習 —— 想象一下,能為用戶打造一些他們在現實中無法體驗的場景,比如一個孩子害怕蜘蛛,我們可以打造一個滿是蜘蛛的房間,讓孩子在虛擬世界里慢慢適應,克服恐懼。我的孩子就怕蜘蛛,所以我覺得這種個性化的全新體驗,價值非常大,這也是我們近期的研發重點。

      另一方面,我們之前也聊過,機器人技術和具身智能領域的世界模型,潛力也非常大。當然這個領域還有很多研究工作要做,但我個人對它充滿期待。簡單來說,核心思路就是:如果一個模型能模擬現實環境,那我們就可以用它在虛擬世界里訓練機器人,或是讓具身智能體在虛擬世界里學習,甚至實時輔助智能體做出決策。

      Genie 計劃雖然現在已經很驚艷了,但它只是一個起點。未來我們會和谷歌實驗室繼續深度合作,不斷優化產品的功能、操控方式、應用架構等;也會拓展更多的使用場景,不局限于Genie計劃這一個應用,還會推出開發者 API,讓更多開發者參與進來。

      不得不說,開發者總能發掘出產品的商業價值,找到極具經濟影響力的應用場景,這也是我覺得很有意思的一點 —— 除了娛樂,世界模型還能在哪些領域找到產品市場契合點。

      而且很多功能在不同的應用場景中是相通的,比如更廣泛的交互性。可以肯定的是,機器人技術的發展,不可能只靠方向鍵來實現,未來的機器人助手需要更多的操控方式,而這和虛擬世界的交互研發是相通的。

      八月份發布 Genie 3,讓我們成為首批推出這類模型的團隊,也讓我們能和谷歌內部的各個團隊展開合作。我們會認真吸納所有的用戶反饋,把大家提出的建議都列出來,成為下一代模型的研發方向。我之前跟杰克說過,我們只實現了目標的 50%—— 因為我們總是會設定極具野心的目標,這個領域還有太多可以探索的地方,模型還有很多不足,需要我們不斷優化。

      這個領域的發展空間巨大,我們才剛剛起步。就像寫論文一樣,一個項目完成后,你馬上就會想,下一個項目可以加入哪些功能,做得更好。

      現在社區里也出現了很多有趣的世界模型,有些和 Genie 3 很相似,但我們的目光已經放得更遠了。

      怎么玩這個產品?

      主持人:除了研發歷程和未來規劃,還有沒有什么想跟大家分享的?比如對于即將體驗這款模型的用戶,你們有什么建議?畢竟你們比普通人花了更多時間研究和使用模型。

      研究員:我建議大家嘗試個性化創作,打造屬于自己的、其他系統無法實現的世界。當然,用它打造游戲環境也很有趣,但這類場景其他系統也能做到;而把現實中的專屬事物 —— 比如一個玩具、一張照片,或是讓自己以特定風格出現在真實的環境中,這種體驗是獨一無二的。

      這讓我想起了 VO(谷歌的視頻生成模型)早期的一個研究項目:有人用 VO(谷歌的視頻生成模型)為阿爾茨海默病患者重現童年記憶,讓他們在虛擬世界里重溫過去,這個項目特別棒。所以我覺得,把個人專屬的事物融入虛擬世界,讓它們 “活” 過來,這種互動方式非常有價值,大家可以試試這個方向。

      另外,大家肯定會發現,模型的提示詞創作目前還不夠完善,但這恰恰是機會。幾年后當這個模型變得非常成熟時,大家會想起現在這個階段,就像我們現在看待 VO(谷歌的視頻生成模型)3 一樣 —— 現在 VO(谷歌的視頻生成模型)3 的每個提示詞都能生成優質視頻,精靈 3 號的每個提示詞基本也能實現預期效果,但在早期,提示詞的創作至關重要,甚至有人會花 10 到 20 分鐘精心打磨一個提示詞。

      所以如果第一次創作的效果不好,別放棄,這款全新的模型,可能會以你意想不到的方式呈現出驚喜的效果。而且親自上手體驗,你就不是在消費一款產品,而是在探索前沿技術。

      主持人:太認同了,“探索前沿技術” 這句話簡直可以當作產品標語了。我還有一個覺得很有趣的點:當被動的媒體消費變成交互式的體驗,會發生什么?這是一片全新的未知領域。過去也有人做過嘗試,但現在有了這種真正定制化的交互式媒體敘事,它會給整個媒體和娛樂行業帶來什么影響,真的太值得期待了。

      研究員還有一個玩法也很有趣,你可以在虛擬世界里設置挑戰,把這個世界分享給別人,讓對方完成任務,比如從 A 點走到 B 點。這是一種基礎的、有目標的游戲體驗,現在的模型已經能實現了。比如那個球的場景,你可以讓別人用球寫出自己的名字,這類簡單的挑戰都能設置。

      就像杰克說的,現在的體驗雖然還比較基礎,但它蘊含著巨大的創意潛力。比如還有一個帶環的場景,你可以操控角色穿越環道,體驗飛行的感覺,這也是用戶發掘的玩法。

      人們還經常問,行業的前沿在哪里,我們下一步要做什么。我經常會做一件事:長時間沉浸在 Genie 3 的第一人稱寫實世界里,然后看向窗外,對比虛擬和現實的差距。我認為最終,虛擬世界會和現實世界變得幾乎無法區分,雖然今天我們不深入聊這個話題,但從模型的性能發展來看,這顯然還有很長的路要走。但如果能生成和現實高度逼真的世界,在里面自由移動、互動、完成各種事情,那該多不可思議。

      而這也是驅動我們開展這項研究的核心愿景:想象你擁有一個宇宙的副本,你可以在其中隨心所欲。顯然,這個副本有巨大的應用價值,能用到很多領域。這雖然是一個非常遠大、甚至可能無法實現的目標,但它就像北極星一樣,一直指引著我們。

      比如我們這次把恐龍鮑勃放進虛擬世界,其實就是在重構現實空間,給現實事物做有趣的增強。未來這方面的探索,一定會非常有意思。

      主持人:那到 Genie 5 的時候,我們可能真的會分不清自己是在現實還是在模擬世界里了。

      世界模型是第三次技術躍遷

      主持人:我還有一個有點尖銳的問題想問問大家:你們覺得,大多數人體驗到世界模型的時間線會是怎樣的?世界模型會先通過企業端影響普通人的生活嗎?比如企業利用世界模型提高生產效率,打造更好的日常產品;還是說,未來普通人的日常生活中,會直接和世界模型產生互動?如果是后者,這個時間線大概會是多久?

      研究員:這其實取決于你如何定義世界模型。如果是指交互式的視聽體驗類世界模型,我認為今年、明年,就會有越來越多的人接觸到它,我們也會看到它在一些領域大放異彩,最終成為很多應用的基礎功能。

      但就像現在的視頻生成技術,雖然發展很快,但真正融入普通人日常生活的比例其實并不高,世界模型也需要時間來完成用戶普及,找到合適的應用場景—— 畢竟視頻和圖像不同,世界模型又和視頻生成不同。

      而如果是具身智能領域的世界模型應用,很難給出具體的時間線,但這個領域已經在取得不錯的進展了。

      另外,用戶的人群特征也很重要:有些經常接觸交互式媒體的人,會成為世界模型的早期使用者,他們知道該如何體驗;但如果把它交給一個對前沿技術不感興趣的家人,他們可能會覺得無從下手,體驗不到產品的魅力。

      但具身智能相關的應用,可能在未來 1-2 年就會走進現實,普通人會在生活中直接接觸到,所以最終的普及時間,還是取決于用戶所處的技術接受曲線位置。

      還有一點,Genie計劃也印證了一個趨勢:生成式技術正在形成一個連續體,從 Nano Banana Pro 的圖像創作,到 VO(谷歌的視頻生成模型)的視頻生成,再到現在Genie 3的交互式實時媒體創作,成為第三個核心支柱。我們希望未來有更多人能體驗到這個連續體上的各類創作體驗。

      主持人:我特別期待看到行業的發展趨勢,畢竟 VO(谷歌的視頻生成模型)和 Nano Banana Pro 的發展過程中,都出現過一些爆紅的玩法,都是我從未預料到的,太瘋狂了。

      研究員:世界模型的發展,和圖像、視頻生成還有些不同。圖像和視頻生成的作品,能被數百萬人觀看,一個人的創作可以被廣泛傳播,家人、朋友都能看到;而世界模型的獨特之處在于,你可以在探索的過程中,不斷改變周圍的世界,這開辟了很多我們未曾考慮過的新途徑、新玩法。

      圖像和視頻生成,本質上是用新技術替代或自動化了過去的一些創作方式,當然也帶來了新的能力和限制;但世界模型,實現了很多過去根本不可能做到的事情,這是它最大的不同,當然二者也有很多相似之處。

      還有一個我們非常興奮的想法,大家在演示中也能看到端倪:用戶可以在現有虛擬世界的基礎上繼續創作,這樣就會形成很多有趣的世界分支,還能追溯創作源頭。這方面的潛力非常大,值得我們深入探索。

      Genie 計劃上線時,用戶可以下載自己的虛擬世界演示視頻;未來我們還會探索更多的世界分享方式,讓大家能以更有趣的方式在別人的世界基礎上創作。

      主持人:太酷了,我還想要一個 “世界檔案” 功能,這樣大家就能看到我所有的創意想法了。

      從世界模型的發展來看,技術進步的節奏是怎樣的?顯然我們已經看到了巨大的進步,圖像生成、VO(谷歌的視頻生成模型)視頻生成、核心雙子座模型,都取得了長足的發展。世界模型是不是也在遵循同樣的發展軌跡,到處都是觸手可及的技術突破,同時受益于算力規模和推理能力的提升?

      研究員:可以這么說。圖像生成技術顯然比視頻生成更成熟,視頻生成和世界模型之間的差距,我無法準確衡量,但可以肯定的是,世界模型是超越視頻生成的前沿技術。

      最新一代的視頻生成模型,畫質已經比Genie 3高很多了,我們也不指望Genie 3現在能生成極致精美的視頻,因為實時交互的約束,是普通視頻生成模型所沒有的。所以世界模型的發展,可能會比視頻生成稍慢一些,但它能帶來全新的體驗。

      說實話,我們現在仍處于技術快速進步的階段。硬件始終是一個巨大的約束,這對所有模型來說都是如此。行業的整體趨勢是,在成本基本不變的情況下,讓模型的運行效率越來越高。但最終,我們還是需要更易獲取的硬件支持—— 比如希望未來人們能直接在自己的設備上運行這類模型,實現無延遲的即時體驗。

      目前高性能的 TPU、GPU 還并非人人可得,硬件的發展速度因為一些實際原因,會比模型研發慢一些,但這也是我們的未來方向—— 希望到 Genie 5 時,大家能在手機上運行完整的通用模擬系統。

      這一點我們也討論過,谷歌擁有垂直技術棧的優勢,這也是我們在谷歌、在深度思維工作的魅力所在:我們既能站在模型研發的前沿,又能利用谷歌最好的硬件來支持模型的運行。而且專門為世界模擬打造的硬件,本身也極具發展潛力,它就像通往另一個維度的入口,點擊就能進入,充滿了新鮮感。

      傳送門:

      https://labs.google/projectgenie

      鏈接:

      https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/

      https://deepmind.google/models/genie/

      https://www.youtube.com/watch?v=Ow0W3WlJxRY&t=4s

      https://www.theverge.com/news/869726/google-ai-project-genie-3-world-model-hands-on?view\_token=eyJhbGciOiJIUzI1NiJ9.eyJpZCI6ImZCakl0bmxFNGwiLCJwIjoiL25ld3MvODY5NzI2L2dvb2dsZS1haS1wcm9qZWN0LWdlbmllLTMtd29ybGQtbW9kZWwtaGFuZHMtb24iLCJleHAiOjE3NzAxNDAwNTYsImlhdCI6MTc2OTcwODA1OH0.q5OBTD\_V36-65oc1EGqPxKYCZF00c7ODvifvagVcwbA&utm\_medium=gift-link

      聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。

      會議推薦

      InfoQ 2026 全年會議規劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產業落地,從技術前沿到行業應用,全面覆蓋 AI 與軟件開發核心賽道!集結全球技術先鋒,拆解真實生產案例、深挖技術與產業落地痛點,探索前沿領域、聚焦產業賦能,獲取實戰落地方案與前瞻產業洞察,高效實現技術價值轉化。把握行業變革關鍵節點,搶占 2026 智能升級發展先機!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      7人告別男籃!徐昕和龐崢麟等3人落選很可惜,郭士強選人引爭議

      7人告別男籃!徐昕和龐崢麟等3人落選很可惜,郭士強選人引爭議

      體育哲人
      2026-02-23 12:51:49
      《鏢人》拿下中國影史春節檔武俠片冠軍

      《鏢人》拿下中國影史春節檔武俠片冠軍

      揚子晚報
      2026-02-22 15:42:16
      21歲的老蘋果筆記本開機連上Wi-Fi 竟然還能收到系統更新!網友:畫面美到想舔

      21歲的老蘋果筆記本開機連上Wi-Fi 竟然還能收到系統更新!網友:畫面美到想舔

      新浪財經
      2026-02-22 14:05:35
      WTA最新排名:王欣瑜位列30,刷新個人職業生涯排名新高

      WTA最新排名:王欣瑜位列30,刷新個人職業生涯排名新高

      懂球帝
      2026-02-23 12:36:06
      我在河南用AI鑒定玉石,8個月收入上百萬|新春走基層

      我在河南用AI鑒定玉石,8個月收入上百萬|新春走基層

      中國企業家雜志
      2026-02-23 14:02:15
      王健林預言應驗!別急了賣房,2026年的房價,要變天!

      王健林預言應驗!別急了賣房,2026年的房價,要變天!

      貓叔東山再起
      2026-02-22 09:10:05
      美軍,突然大量部署戰機

      美軍,突然大量部署戰機

      每日經濟新聞
      2026-02-22 23:51:04
      家里閑置行李箱別扔!8個腦洞用法,看完直呼太會玩!

      家里閑置行李箱別扔!8個腦洞用法,看完直呼太會玩!

      繪本家居
      2026-02-20 09:38:01
      新建237套征收安置房,位置→

      新建237套征收安置房,位置→

      上觀新聞
      2026-02-23 12:49:36
      重大錯誤,印制錯誤的韓國國旗被升起4次,國際奧委會已致歉

      重大錯誤,印制錯誤的韓國國旗被升起4次,國際奧委會已致歉

      懂球帝
      2026-02-22 17:22:25
      龐崢麟落選男籃出征名單引熱議!球迷打抱不平“選人標準惹爭議”

      龐崢麟落選男籃出征名單引熱議!球迷打抱不平“選人標準惹爭議”

      狼叔評論
      2026-02-23 11:10:08
      閨蜜大婚我隨了5000,她回禮雨傘,看見傘柄刻著地址和6個數字

      閨蜜大婚我隨了5000,她回禮雨傘,看見傘柄刻著地址和6個數字

      磊子講史
      2026-01-23 16:54:49
      印度91歲僧人78年不吃不喝?軍方在其房間裝上監控,最終發現真相

      印度91歲僧人78年不吃不喝?軍方在其房間裝上監控,最終發現真相

      談史論天地
      2026-02-22 06:31:28
      皇馬大清洗!弗洛倫蒂諾下死令,這位球員誰要誰領走

      皇馬大清洗!弗洛倫蒂諾下死令,這位球員誰要誰領走

      奶蓋熊本熊
      2026-02-23 03:52:11
      這個國家一口氣花150億請中國駐軍,又花35億買導彈,付款極爽快

      這個國家一口氣花150億請中國駐軍,又花35億買導彈,付款極爽快

      近史談
      2026-02-22 21:46:43
      為什么成功人士的精力都非常旺盛?網友:累了困了隨時休息

      為什么成功人士的精力都非常旺盛?網友:累了困了隨時休息

      夜深愛雜談
      2026-02-22 21:11:21
      Coco說她很懷念在香港的日子,很懷念和謝賢在一起的12年

      Coco說她很懷念在香港的日子,很懷念和謝賢在一起的12年

      西樓知趣雜談
      2026-02-19 21:09:49
      外媒:華爾街加速流出,轉向新興市場

      外媒:華爾街加速流出,轉向新興市場

      環球網資訊
      2026-02-23 09:46:25
      “初中女生扶老人遭索賠22萬元”有新進展,律師:原告主張賠償項目與金額嚴重失衡

      “初中女生扶老人遭索賠22萬元”有新進展,律師:原告主張賠償項目與金額嚴重失衡

      現代快報
      2026-02-23 07:37:03
      CCTV直播有變!新加坡:孫穎莎3-0,陳俊菘挑戰張本,蒯曼1日雙賽

      CCTV直播有變!新加坡:孫穎莎3-0,陳俊菘挑戰張本,蒯曼1日雙賽

      體育就你秀
      2026-02-23 07:15:53
      2026-02-23 14:24:49
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區媒體
      12068文章數 51762關注度
      往期回顧 全部

      科技要聞

      騰訊字節,“火拼”漫劇

      頭條要聞

      7名中國游客溺亡于貝加爾湖 31歲幸存者被救細節披露

      頭條要聞

      7名中國游客溺亡于貝加爾湖 31歲幸存者被救細節披露

      體育要聞

      哈登版騎士首敗:雷霆的冠軍課

      娛樂要聞

      谷愛凌奶奶去世,谷愛凌淚奔

      財經要聞

      結婚五金邁入10萬大關 年輕人結婚更難了

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      時尚
      房產
      手機
      教育
      本地

      今年春天一定要擁有的針織,這樣穿減齡又好看!

      房產要聞

      窗前即地標!獨占三亞灣C位 自貿港總裁行宮亮相

      手機要聞

      榮耀Magic V6拍攝樣張曝光,確認搭載第五代驍龍8至尊版芯片

      教育要聞

      大動作:英國留學劇本大變!

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      無障礙瀏覽 進入關懷版