網易首頁 > 網易號 > 正文申請入駐

Visionary，一個全面超越Marble底層渲染器的WebGPU渲染平臺

2025-12-22 16:33:28　來源: 機器之心Pro

河北舉報

分享至

該工作由上海人工智能實驗室鐘志航團隊聯合四川大學、東京大學、上海交通大學、西北工業大學共同完成。

在李飛飛團隊 WorldLabs 推出 Marble、引爆「世界模型（World Model）」熱潮之后，一個現實問題逐漸浮出水面：世界模型的可視化與交互，依然嚴重受限于底層 Web 端渲染能力。

Marble 所依賴的基于 WebGL 的 3D Gaussian Splatting (3DGS) 渲染器 SparkJS，讓世界模型首次在瀏覽器中「跑起來」，但也暴露出明顯瓶頸：大場景以及復雜場景下，CPU 排序成為性能天花板，動態場景與生成模型難以接入。

近日，開源項目Visionary給出了一個截然不同的答案：基于 WebGPU 與 ONNX，在瀏覽器中實現真正的動態 3DGS / 4DGS 實時渲染，并在多項測試中全面超越 SparkJS。

論文標題：Visionar y: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform
技術報告：https://arxiv.org/abs/2512.08478
GitHub：https://github.com/Visionary-Laboratory/visionary
在線 Editor：https://visionary-laboratory.github.io/visionary/index_visionary.html

World Model 的「最后一公里」，

卡在 Web 端渲染

相比 Genie3 等視頻生成范式的世界模型，其對算力的依賴極為龐大，距離在 Web 端實現高質量、實時運行仍有不小差距。反觀神經渲染路線，尤其是3D Gaussian Splatting，憑借其高效性，已經成為構建世界模型的重要表示形式。

3DGS 讓高質量、實時的 3D 世界成為可能，但在實際落地中，仍存在明顯斷層：

桌面端 / 引擎方案（SIBR、Unity、Unreal）：性能強，但依賴沉重、部署復雜，難以傳播與復現；

現有 Web 端方案（SparkJS、SuperSplat）：受限于 WebGL 管線，主要支持靜態或預計算高斯，難以承載實時推理的動態 3DGS、Neural Avatar，更難引入生成式模型。

World Model 想要真正「被看見、被交互」，Web 端渲染底座成為關鍵瓶頸。

Visionary：不是 Viewer，

而是 World Model 的 Web 渲染基座

Visionary 的定位并非「又一個 3DGS 查看器」，而是一個面向 World Model / 空間智能的 Web 原生渲染基座 (Rendering Substrate)

WebGPU 原生架構：將 GPU 計算與渲染真正帶入瀏覽器，替代 WebGL；

ONNX 驅動的統一接口：將「每幀高斯生成 / 更新」抽象為標準化的模型契約；

動態友好設計：3DGS、4DGS、Neural Avatar 以及生成式后處理均可在線運行。

Visionary 的核心設計在于提出了 Gaussian Generator Contract：

將各類 3DGS、4DGS 及 Avatar 方法統一導出為 ONNX 標準，每幀僅需輸入相機、時間等輕量控制信號，即可由 ONNX 輸出完整的高斯屬性緩沖。

這種設計使得渲染器不再受限于具體的算法細節，首次在瀏覽器端實現了每幀動態生成與更新高斯、同一渲染器承載多種 3DGS 變體以及接入生成式后處理（如風格化、增強）的能力。

性能實測：

全面超越 SparkJS

實驗數據顯示，在相同 3DGS 資源條件下，Visionary 的渲染效率顯著優于當前主流 Web 端查看器。

在包含數百萬高斯點的典型場景中，Visionary 將排序與預處理完全遷移至 GPU (WebGPU)，顯著降低端到端延遲，而 SparkJS 的性能瓶頸主要集中在 CPU 排序階段。

不止更快：

渲染正確性與畫質同樣重要

Visionary 采用逐幀 GPU 全局排序，徹底避免了類似 SparkJS 在快速視角變化下出現的 lazy sorting 視覺偽影。在 Mip-NeRF360 等基準上，畫質指標與 SparkJS 持平甚至略有提升。

同時避免了 SuperSplat 等方案中的逐物體排序混合錯誤。在多模型混合場景下，仍能保證透明度渲染正確。

面向研究、創作與工業的統一平臺

對研究者來說，任意 3DGS 變體只要能導出 ONNX，即可快速復現、對比與展示；創作者無需安裝專業軟件，即可在瀏覽器中完成編輯、錄制與渲染；

工業界則可將其應用于數字孿生、仿真、XR、具身智能等大規模實時場景。

Visionary 已在 GitHub 完全開源，采用寬松協議，并已獲得 Firefox / Chrome WebGPU 相關開發者的關注與反饋。

目前已原生支持：MLP-based 3DGS (Scaffold-GS)、4D Gaussian Splatting、Neural Avatar (LHM、GauHuman、R3-Avatar 等)、ONNX 生成式后處理（風格化、增強），全部渲染流程均在瀏覽器端完成。

團隊表示，Visionary 只是邁向統一世界模型框架的第一步。未來將進一步探索：

物理交互增強（碰撞檢測與 Mesh 管線融合）
物理感知建模（結合 MPM 等方法模擬真實動力學）
空間智能體（基于多模態大模型的空間推理與交互）
下游應用橋接（支持具身 AI 的 Sim-to-Real 遷移）

結語

World Model 的競爭，最終會回到一個問題：誰能把復雜世界，穩定、快速、低門檻地呈現出來？

Visionary 給出的答案是：用 WebGPU + ONNX，把世界模型真正帶到 Web。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.