![]()
該工作由上海人工智能實驗室鐘志航團隊聯合四川大學、東京大學、上海交通大學、西北工業大學共同完成。
在李飛飛團隊 WorldLabs 推出 Marble、引爆「世界模型(World Model)」熱潮之后,一個現實問題逐漸浮出水面:世界模型的可視化與交互,依然嚴重受限于底層 Web 端渲染能力。
Marble 所依賴的基于 WebGL 的 3D Gaussian Splatting (3DGS) 渲染器 SparkJS,讓世界模型首次在瀏覽器中「跑起來」,但也暴露出明顯瓶頸:大場景以及復雜場景下,CPU 排序成為性能天花板,動態場景與生成模型難以接入。
近日,開源項目Visionary給出了一個截然不同的答案:基于 WebGPU 與 ONNX,在瀏覽器中實現真正的動態 3DGS / 4DGS 實時渲染,并在多項測試中全面超越 SparkJS。
![]()
- 論文標題:Visionar y: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform
- 技術報告:https://arxiv.org/abs/2512.08478
- GitHub:https://github.com/Visionary-Laboratory/visionary
- 在線 Editor:https://visionary-laboratory.github.io/visionary/index_visionary.html
World Model 的「最后一公里」,
卡在 Web 端渲染
相比 Genie3 等視頻生成范式的世界模型,其對算力的依賴極為龐大,距離在 Web 端實現高質量、實時運行仍有不小差距。反觀神經渲染路線,尤其是3D Gaussian Splatting,憑借其高效性,已經成為構建世界模型的重要表示形式。
3DGS 讓高質量、實時的 3D 世界成為可能,但在實際落地中,仍存在明顯斷層:
桌面端 / 引擎方案(SIBR、Unity、Unreal):性能強,但依賴沉重、部署復雜,難以傳播與復現;
現有 Web 端方案(SparkJS、SuperSplat):受限于 WebGL 管線,主要支持靜態或預計算高斯,難以承載實時推理的動態 3DGS、Neural Avatar,更難引入生成式模型。
World Model 想要真正「被看見、被交互」,Web 端渲染底座成為關鍵瓶頸。
Visionary:不是 Viewer,
而是 World Model 的 Web 渲染基座
Visionary 的定位并非「又一個 3DGS 查看器」,而是一個面向 World Model / 空間智能的 Web 原生渲染基座 (Rendering Substrate)
WebGPU 原生架構:將 GPU 計算與渲染真正帶入瀏覽器,替代 WebGL;
ONNX 驅動的統一接口:將「每幀高斯生成 / 更新」抽象為標準化的模型契約;
動態友好設計:3DGS、4DGS、Neural Avatar 以及生成式后處理均可在線運行。
Visionary 的核心設計在于提出了 Gaussian Generator Contract:
![]()
將各類 3DGS、4DGS 及 Avatar 方法統一導出為 ONNX 標準,每幀僅需輸入相機、時間等輕量控制信號,即可由 ONNX 輸出完整的高斯屬性緩沖。
這種設計使得渲染器不再受限于具體的算法細節,首次在瀏覽器端實現了每幀動態生成與更新高斯、同一渲染器承載多種 3DGS 變體以及接入生成式后處理(如風格化、增強)的能力。
性能實測:
全面超越 SparkJS
![]()
實驗數據顯示,在相同 3DGS 資源條件下,Visionary 的渲染效率顯著優于當前主流 Web 端查看器。
在包含數百萬高斯點的典型場景中,Visionary 將排序與預處理完全遷移至 GPU (WebGPU),顯著降低端到端延遲,而 SparkJS 的性能瓶頸主要集中在 CPU 排序階段。
不止更快:
渲染正確性與畫質同樣重要
![]()
Visionary 采用逐幀 GPU 全局排序,徹底避免了類似 SparkJS 在快速視角變化下出現的 lazy sorting 視覺偽影。在 Mip-NeRF360 等基準上,畫質指標與 SparkJS 持平甚至略有提升。
同時避免了 SuperSplat 等方案中的逐物體排序混合錯誤。在多模型混合場景下,仍能保證透明度渲染正確。
面向研究、創作與工業的統一平臺
![]()
對研究者來說,任意 3DGS 變體只要能導出 ONNX,即可快速復現、對比與展示;創作者無需安裝專業軟件,即可在瀏覽器中完成編輯、錄制與渲染;
工業界則可將其應用于數字孿生、仿真、XR、具身智能等大規模實時場景。
Visionary 已在 GitHub 完全開源,采用寬松協議,并已獲得 Firefox / Chrome WebGPU 相關開發者的關注與反饋。
![]()
目前已原生支持:MLP-based 3DGS (Scaffold-GS)、4D Gaussian Splatting、Neural Avatar (LHM、GauHuman、R3-Avatar 等)、ONNX 生成式后處理(風格化、增強),全部渲染流程均在瀏覽器端完成。
團隊表示,Visionary 只是邁向統一世界模型框架的第一步。未來將進一步探索:
- 物理交互增強(碰撞檢測與 Mesh 管線融合)
- 物理感知建模(結合 MPM 等方法模擬真實動力學)
- 空間智能體(基于多模態大模型的空間推理與交互)
- 下游應用橋接(支持具身 AI 的 Sim-to-Real 遷移)
結語
World Model 的競爭,最終會回到一個問題:誰能把復雜世界,穩定、快速、低門檻地呈現出來?
Visionary 給出的答案是:用 WebGPU + ONNX,把世界模型真正帶到 Web。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.