![]()
隨著生成式 AI 的快速發展,從文本生成圖像、視頻,到構建完整的三維世界,AI “創造空間” 的能力正以前所未有的速度突破邊界。然而,現有 3D 場景生成方法仍存在明顯局限:模型往往直接輸出每個物體的幾何參數(位置、大小、方向等),結果容易出現漂浮、重疊、穿模等問題;場景結構缺乏邏輯一致性,難以編輯或復用,更無法像程序那樣精確控制空間關系與生成邏輯。
想象這樣一個畫面:你輸入一句話 ——
“在黃昏的碼頭上,一位漁夫坐在木椅上,旁邊是一盞搖曳的燈。”
AI 不再只是 “擺放” 這些元素,而是生成一段可執行的三維構建腳本:從燈光的照射角度到漁夫與木椅的相對位置,都由程序邏輯自動推導與控制。
這種 “從語言到程序再到場景” 的新范式,正是由布朗大學(Brown University)與加州大學圣地亞哥分校(UC San Diego)的研究團隊提出的 Procedural Scene Programs(PSP) 框架。
與傳統的幾何直接生成方法不同,PSP 讓 AI 不再是 “畫” 出一個世界,而是像程序員一樣 “寫” 出世界的生成邏輯。模型輸出的不是靜態的三維網格,而是一段可運行的場景腳本,具備高度的可編輯性、可復用性與結構可控性—— 為 AI 世界構建帶來了新的語言與思維方式。
該研究已被計算機圖形學頂會 SIGGRAPH Asia 2025 接收。
![]()
![]()
- 論文題目:Procedural Scene Programs for Open-Universe Scene Generation: LLM-Free Error Correction via Program Search
- 作者:Maxim Gumin, Do Heon Han, Seung Jean Yoo, Aditya Ganeshan, R. Kenny Jones, Kailiang Fu(傅楷量), Rio Aguina-Kang, Stewart Morris, Daniel Ritchie
- 論文鏈接:https://arxiv.org/abs/2510.16147
方法
研究團隊提出的 Procedural Scene Programs(PSP) 是一個兩階段的程序化場景生成系統。它的核心思想是:讓 AI 不再直接輸出三維幾何,而是先生成可執行的構建腳本,再通過程序執行構建出完整場景。
整個系統由兩大關鍵組件組成:
1.Procedural Scene Description Language(PSDL)—— 用來 “寫” 出生成世界的程序語言;
2.Program Search 糾錯模塊—— 在程序執行后自動檢測并修復幾何錯誤。
PSDL 負責 “生成邏輯”,Program Search 負責 “結果修正”。這種 “先生成、再調試” 的機制,使得 AI 不僅能自動搭建三維場景,還能在程序層面自我修復錯誤,從而生成結構合理、物理一致的世界。
1. 程序化生成語言 PSDL:讓 AI 寫出世界的規則
傳統的三維場景生成模型通常直接預測每個物體的位置、大小和方向。然而,由于 AI 并不具備完善的空間想象與物理推理能力,這種方法往往會導致物體漂浮、重疊等問題。為此,PSP 引入了 Procedural Scene Description Language(PSDL),讓模型不再 “直接想象空間”,而是以程序邏輯來表達空間關系。PSDL 嵌入在 Python 中,支持函數、循環、條件與變量綁定,使模型能夠通過編寫規則的方式來定義場景的結構與布局。
例如:
foriin range (3):
place ('chair', around='table', angle=i*120)
這樣的語句不僅表達了 “放三把椅子” 的結果,也清晰地定義了 “圍繞桌子等角放置” 的空間關系。這種形式讓生成過程具備了可編輯、可擴展、可復用的特性,使模型真正具備了 “程序化建模” 的能力。
![]()
2. 糾錯模塊 Program Search:自動修復幾何錯誤
在生成完成后,PSP 會通過 Program Search 模塊對場景進行結構與幾何一致性檢測。與傳統需要反復調用大模型修正錯誤的方式不同,PSP 直接在程序空間中搜索修復方案,無需再次推理。
研究團隊定義了多種幾何一致性指標,如物體重疊率、支撐關系和遮擋情況。當檢測到異常時,系統會自動替換變量或微調表達式,從程序層修復問題。
實驗結果顯示,PSP 平均只需 約 7 次程序修改 即可修復大多數錯誤,且完全無需重新調用 LLM。這種符號級修正機制讓生成過程更穩定、更具可解釋性,并顯著提升了三維場景的物理合理性。
![]()
效果與對比
在 70 個開放世界場景提示(涵蓋自然、建筑、幻想等多樣主題)上,研究團隊對比了三種代表性方法:聲明式布局系統 DeclBase、約束驅動的 Holodeck,以及本文提出的 Procedural Scene Programs(PSP)。
結果顯示,PSP 在人類主觀評測中顯著領先 ——在與 DeclBase 的對比中獲得 82.9% 的偏好率,與 Holodeck 的對比中則達到 94.3%。同時,PSP 的生成速度也更快:從文本到完整場景平均僅需約 38 秒,而 DeclBase 與 Holodeck 分別需要 40.8 秒 與 約 42 秒。
![]()
除了人類主觀評測外,研究團隊還提出了一種基于多模態 LLM 的自動化評估方法,用于衡量生成場景在語義一致性與視覺合理性上的表現。在 PSP 與 DeclBase、Holodeck 的對比中,該自動評測方法分別給出 77.1% 與 90.0% 的 PSP 偏好選擇率,與人類主觀偏好(82.9% 與 94.3%)趨勢一致,證明了其在未來三維場景生成質量評測中的可靠性與參考價值。
![]()
意義與展望
這項研究揭示了一個重要趨勢:未來的 3D 場景生成,可以不再只是從文本到幾何的單向映射,而是一個“程序寫世界(Program the World)”的過程。
通過 Procedural Scene Programs(PSP),AI 的 “想象力” 可以與 “編程邏輯” 深度融合:它既繼承了命令式生成的靈活性與層次表達能力,又以符號化修正機制彌補了大模型在空間推理與邏輯一致性上的脆弱。這一范式轉變,讓模型不只是理解世界的觀察者,而成為主動構建世界的開發者。
正如論文作者所言:
“Our approach re-establishes the strengths of imperative scene layout programs while overcoming their fragility to LLM errors.”
PSP 通過程序語言與自動糾錯機制的結合,為 3D 內容生成帶來了前所未有的可控性與自解釋性。無論是虛擬城市、游戲關卡,還是具身智能的視覺環境,這一框架都為 AI 世界的構建提供了新的邏輯與基礎。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.