近期,一家位于舊金山的初創公司 Moonlake AI 宣布公開測試其“世界建模智能體”(World Modeling Agent),同步發布的技術博客展示了一個保齡球小游戲的十階段構建過程,從網格資產生成、剛體物理賦予、碰撞檢測、計分邏輯、音頻集成到逆運動學(IK, Inverse Kinematics)抓取動畫,全由 AI 自主完成。Moonlake 的 beta 產品能在 15 到 20 分鐘內,將一段自然語言描述變成可運行、可操控、有物理反饋的完整游戲原型。
Moonlake 試圖讓任何人通過自然語言,直接生成帶有物理引擎、游戲邏輯、碰撞檢測、計分系統甚至空間音頻的完整交互式世界。用創始人自己的話來說,他們不只是在做一個游戲生成器,而是想借游戲開發這個過程,去訓練一個關于“世界如何運作”的前沿 AI 模型。
該公司總部位于舊金山,由兩位斯坦福 AI 實驗室出身的博士 Fan-Yun Sun 和 Sharon Lee 聯合創立。Fan-Yun Sun 在斯坦福讀博期間同時在英偉達的學習與感知研究團隊以及 Metropolis 深度學習部門(即 Omniverse 相關項目)工作,主攻方向是為訓練 AI 智能體生成大規模 3D 世界。
Lee 的研究方向則是將擴散模型(Diffusion Model)和 3D 引擎結合,構建能夠理解空間的基礎模型。兩人的研究背景高度互補,一個解決“如何生成世界”,一個解決“如何讓世界有交互”。
![]()
圖丨 Fan-Yun Sun(右)和 Sharon Lee(左)(來源:Moonlake)
公司于 2025 年 10 月從隱身模式走出,宣布完成了 2,800 萬美元種子輪融資,由 AIX Ventures、Threshold Ventures 和英偉達旗下風投 NVentures 聯合領投。
天使投資人陣容也相當亮眼:YouTube 聯合創始人 Steve Chen、AngelList 創始人 Naval Ravikant、Google 首席科學家 Jeff Dean、GAN(Generative Adversarial Network,生成對抗網絡)發明者 Ian Goodfellow,以及來自 Hugging Face、DeepMind、Stability AI、OpenAI 的多位高管。截止近期,融資數字已更新為約 3,000 萬美元,團隊大約 15 人,由 ACM ICPC 獎牌得主和國際奧林匹克競賽獲獎者等組成。
2025 年 12 月,Moonlake 發布了他們的核心產品 Reverie,也就是所謂的 GGE(Generative Game Engine,生成式游戲引擎)。按照公司的說法,這是第一個“可編程的世界模型”,用于實時交互內容生成。它和此前的 AI 視頻生成模型有一個關鍵區別:狀態持久性。
大部分視頻生成模型(比如 Sora 之類)能產出漂亮的畫面,但它們本質上是在預測“下一幀看起來應該像什么”,不維護一個真正的世界狀態。如果玩家在游戲里打碎了一個花瓶,幾秒鐘后花瓶可能又恢復原樣了。
Moonlake 的系統通過將擴散模型與結構化 3D 信號綁定,讓世界中發生的變化能持續保持。Lee 在接受采訪時說過,生成式世界中一直缺失的那塊拼圖就是“控制”,創作者需要能定義什么會變、為什么變、變化維持多久。
具體來看 Moonlake 的技術架構,它并不是一個單一模型,而是一個“編排者”(orchestrator)。用戶的自然語言指令進入后,系統調用一整套專門化的第三方 AI 模型來分別處理不同任務:空間布局用多模態推理,游戲邏輯靠程序合成(program synthesis),物理交互用模擬層,視覺渲染則由實時擴散模型完成。
Fan-Yun Sun 對 Fast Company 描述說,他們的編排模型會隨著時間推移學會如何融合這些模態,并逐步把外部模型的能力納入自己體內。
Moonlake 在官方博客中給出了一個很具體的案例來展示這套系統的推理過程:一個賽博朋克風格的保齡球迷你游戲。用戶只給了一句話的提示:“在街機房里創建一個賽博朋克美學、半寫實風格的保齡球小游戲”,沒有提供任何架構約束或實現細節。
接下來,系統的 agent 自動走完了十個階段:先是資產實例化,生成球道、球瓶、保齡球的 3D 網格和 PBR(Physically Based Rendering,基于物理的渲染)紋理;然后是物理化,把球瓶轉換為剛體,賦予摩擦系數 0.4、彈性 0.15,球瓶質量 1.5 公斤,保齡球 5 公斤;再到空間布局、核心游戲邏輯、球的生命周期管理、邊界穩定、邊緣情況處理、音頻集成、IK(Inverse Kinematics,逆向運動學)手臂抓取系統,最后是由用戶反饋驅動的細節打磨。
從這一實例也能看出,Moonlake 對“世界模型”的定義和當前 AI 圈主流話語有較大不同。過去一年里,“world model”這個詞在 AI 行業被大量使用,但大多數時候指的是下一幀視頻預測,即給定當前畫面和用戶操作,預測接下來視覺上應該是什么樣。
Google DeepMind 的 Genie 3 在 2025 年 8 月發布,能以 24 幀每秒生成可導航的 3D 環境;李飛飛的 World Labs 在 2025 年 11 月推出 Marble,可以從文本、圖片或視頻生成可下載的 3D 世界。
Moonlake 的思路和上述這些都不太一樣。在他們看來,一個世界的狀態不能被簡化為一幀圖像或一團像素。
他們的博客文章用保齡球瓶做了個例子:一個保齡球瓶同時是空間中的一個有紋理的物體、一個有質量和慣性的剛體、一個可以被撞倒的對象、一個對比分有貢獻的符號實體,以及一個撞擊時的聲源。當球擊中瓶子的那一刻,變換矩陣更新、物理求解器解析碰撞沖量、比分遞增、音頻觸發、重置計時器推進等,這些不是獨立事件,是同一個因果事件的同步結果。如果其中任何一個模態更新而其他沒跟上,世界就不連貫了。
所以 Moonlake 追求的是跨模態的因果一致性,而非單純的視覺逼真。他們把世界模型應該同時編碼的東西分成了五個維度:幾何(變換、拓撲、空間關系)、物理(質量、力、碰撞約束)、可供性(affordance,即什么動作是可能的、由誰來執行)、符號邏輯(規則、分數、定時器、狀態機)、感知映射(視覺投影和空間音頻)。這個框架比純視覺世界模型更全面,也更貼近傳統游戲引擎實際做的事情。
![]()
(來源:Moonlake AI)
就當前實際的產品體驗來看,其的確可以較為迅速的制作出一個簡單的游戲原型,但仍需耗費較大精力進行打磨。在 Fast Company 報道的實測中,記者初次嘗試做一個 3D 地牢探險游戲時遭遇了失敗,產出了一個滿是膠囊形角色的單間。
之后他縮小范圍,做了一個 2D 冰淇淋堆疊游戲,初版在 15 到 20 分鐘內出來了。核心玩法基本到位,冰淇淋從天上掉下來的節奏恰到好處,鍵盤控制映射也是自動完成的,系統甚至主動加了一個冰淇淋落到蛋筒上時的彈跳動畫。但廚師是個白色粗糙圖形,冰淇淋不會正確堆疊。
于是他又花了好幾個小時反復和 AI 溝通修復物理效果,陷入“幾乎解決但沒完全解決”的循環。最終他把剩余需求一股腦塞給系統,15 分鐘后拿到了有計分、有 Game Over 畫面的完整游戲,消耗月度 1,500 信用點中約 950 點,按 40 美元月費算不到 25 美元。速度驚人,打磨依然費力。
不過 Moonlake 真正的長期賭注不在工具層面。Lee 和 Fan-Yun Sun 反復強調的一件事是:用戶每一次在平臺上糾正系統的物理行為、補充游戲規則、調整因果關系,都在為 Moonlake 自己的多模態模型提供訓練信號。
Fan-Yun Sun 把這和現有的世界數據采集方式做對比,例如租 Airbnb 用激光掃描房間是靜態的、難以規模化的;分析視頻缺少人類語境;只用單一游戲數據(比如大量《堡壘之夜》錄像)訓練出的模型不會泛化到真實世界。
而 Moonlake 上的用戶交互天然帶有意圖和反饋,是因果數據。如果這個飛輪跑起來,數據規模會指數級增長,模型也會隨之變強。游戲之后,他們設想的應用方向包括機器人訓練、自動駕駛和制造業人因分析。Lee 稱他們已經接到了制造企業的咨詢。
只是目前其 beta 版每天僅放量 100 人,離“飛輪轉起來”大概還有相當遙遠的距離。
參考資料:
1.https://x.com/moonlake/status/2026718586354487435
2.https://moonlakeai.com/blog/building-interactive-worlds
3.https://www.fastcompany.com/91491025/moonlake-ai-vibecoded-video-game
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.