網易首頁 > 網易號 > 正文申請入駐

清華陳建宇×斯坦福Chelsea團隊世界模型Ctrl-World能力登頂全球

2026-02-26 14:48:08　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

在全球具身智能領域的頂級權威評測 WorldArena 榜單中，清華陳建宇（星動紀元創始人）團隊聯合斯坦福 Chelsea Finn（PI 創始人）團隊研發的 Ctrl-World 世界模型交出優異答卷：

具身任務能力斬獲全球第一，更在主體一致性、軌跡精度、深度準確性、策略評估一致性四大核心維度登頂；
視頻生成能力排名全球第二，僅次于阿里 Wan 2.6，強勢超越谷歌 Veo 3.1、英偉達 Cosmos-Predict 2.5 等世界頂尖模型；
Ctrl-World 成為在「視頻生成質量」（看起來真實）與「具身任務」（真正可用）兩大維度均躋身頂級梯隊的世界模型

14 個世界模型在 WorldArena 融合多維度表現的 EWMScore 綜合指標評分

(a) Ctrl-World 在具身策略評估一致性上高達 0.986，遠超英偉達等同類模型；(b) Ctrl-World 以 59.70 在視頻生成質量上排名全球第二，超越谷歌 Veo 3.1（58.87），僅次于阿里 Wan 2.6（61.86）

WorldArena：

全球具身世界模型的「終極試煉場」

WorldArena 之所以能成為行業公認的權威榜單，核心在于其「全面、硬核、具引領性」的定位，徹底區別于泛化的 AI 評測體系，其專業權威源于三大核心特質：

1. 硬核基準：頂尖學術共建，全方位綜合評測

WorldArena 由清華大學牽頭，聯合普林斯頓大學、新加坡國立大學、北京大學、香港大學、中科院、上海交通大學、中國科學技術大學等 8 所全球頂尖學術機構共同研發，團隊成員均為具身智能、計算機視覺、機器人學領域的權威學者，共同制定了兼具科學性與實用性的硬核評測標準。

該體系聚焦具身世界模型這一核心領域，打造了涵蓋 16 大核心指標、3 大真實應用任務的全方位綜合測試場景，全面考核模型的感知精度、物理理解、空間認知、動作預測及實際落地適配能力，實現對具身智能核心技術的全方位、深層次檢驗，而非單一維度的能力比拼。

2. 參賽陣容鼎盛：全球巨頭與頂尖機構同臺競技

得益于其權威的評測標準與行業影響力，全球頂尖具身世界模型研發團隊均主動參與評測，首批參評陣容涵蓋國際科技巨頭、頂尖學術機構，包括：谷歌、英偉達、阿里、字節、智譜、智元、極佳視界、清華大學、斯坦福大學、北京大學、香港大學、普林斯頓大學等

此次共有全球頂尖 14 款參賽模型同臺競技，覆蓋通用視頻生成衍生模型、機器人專用模型等所有主流技術路線，真正形成「全球頂級玩家齊聚」的格局，榜單結果不僅是各模型能力的直觀排名，更成為行業技術研發、方向布局的重要「風向標」，引領具身智能領域的創新發展。

3. 評測硬核：16 項指標 + 3 大任務，直擊「真干活」的核心需求

WorldArena 的評測體系圍繞「具身實用」設計，聚焦「真能干活」：

視頻質量 6 大評估維度示意圖：視覺質量、運動質量、內容一致性、物理貼合度、3D 精度、可控性，每個維度都有明確的優劣判斷標準

6 大核心維度涵蓋視覺質量、運動質量、內容一致性、物理貼合度（Physics Adherence）、3D 準確性（3D Accuracy）、可控性，細分為 16 項量化指標，每一項都對應機器人實際應用的痛點；

具身任務評估體系概覽：通過數據引擎、策略評估、動作規劃三大任務，全面測試模型的實戰能力

3 大具身任務（數據引擎、策略評估、動作規劃）模擬模型的真實使用場景，直接考核「生成的內容能不能訓練機器人」、「模擬的環境能不能測試策略」、「規劃的動作能不能完成任務」；

70 位專業標注者對 3500 個視頻進行主觀評估，確保結果既符合技術標準，又貼近人類對「實用」的直覺判斷。

現有世界模型基準與 WorldArena 的評測維度對比：

該表從視頻質量 6 個子維度、具身任務 3 大核心角色及人類評估維度，全面對比了主流評測基準與 WorldArena 的覆蓋情況，直觀體現了 WorldArena 在具身任務評測上的獨家優勢，是其成為具身世界模型專屬評測金標準的核心依據。

這種「技術指標 + 實用任務 + 人類校驗」的三重考核，讓 WorldArena 的排名不只是「分數高低」，更是模型實際應用價值的直接體現。

Ctrl-World 四大具身維度登頂

斬獲具身任務能力全球第一

14 款世界模型在視頻質量三大維度（視覺質量、運動質量、內容一致性）的各項指標評分表：

Ctrl-World 在主體一致性全球第一（0.8411）

14 款世界模型物理貼合度、3D 準確性及可控性評分：

Ctrl-World 在軌跡準確性（0.4766）、深度準確性（0.9300）等核心指標上的領先地位，其中軌跡準確性（0.4766）位列全球第一

1. 主體一致性全球第一（0.8411）：筑牢具身任務落地的基礎

Ctrl-World 以 0.8411 的得分拿下該指標全球第一。這一指標用于衡量視頻中生成物體的身份、外觀與形態在時序維度的穩定程度，Ctrl-World 的領先表現，使其生成的機器人操作視頻能最大程度規避物體位置漂移、形態形變或身份混淆等問題，為機器人作業提供了高保真的「數字孿生」交互對象。

圖中展示了 WorldArena 基準中主體一致性（Subject Consistency）的高低分案例對比，直觀說明 Ctrl-World 以 0.8411 位列全球第一的技術優勢：

高分案例（90.07）：在「adjust bottle」任務中，瓶子在機械臂交互全過程中保持形狀、顏色、標識及位置的時序穩定，無漂移或形變，體現高保真「數字孿生」特性；
低分案例（1.242）：同場景下瓶子出現嚴重幾何變形與身份特征丟失，產生視覺噪聲，直接影響機器人策略訓練的可靠性。

2. 軌跡精度全球第一（0.4766 ）：動作精準度媲美真實物理軌跡

軌跡準確性（Trajectory Accuracy）衡量機械臂運動軌跡與真實物理軌跡的對齊度，是機器人動作規劃的核心基礎。Ctrl-World 以 0.4766 的絕對優勢位列全球第一，意味著其生成的機械臂運動軌跡與真實世界物理運動幾乎完全吻合，為機器人提供了可信賴的「數字孿生」動作模板。

圖中展示了 WorldArena 基準中軌跡準確性（Trajectory Accuracy）的高低分案例對比，直觀說明 Ctrl-World 以 0.4766 位列全球第一的技術優勢：

高分案例（92.95）：在「move can pot」任務中，機械臂運動軌跡（紅色路徑線）與真實物理軌跡（GT）高度吻合，動作精準連貫，符合物理運動規律；
低分案例（8.64）：同場景下軌跡出現顯著偏離，伴隨異常跳躍和不連貫動作，無法復現真實物理運動。

3. 深度準確性全球第一梯隊（0.9300 ）：3D 空間認知遙遙領先

在 3D 準確性維度的深度準確性（Depth Accuracy）指標上，Ctrl-World 以 0.9300（與第一位差距僅 0.0012）屬全球第一梯隊，展現了對三維空間結構的精準把握。這一能力直接決定機器人在抓取、堆疊、插入等精密操作中的成功率，避免因「空間感知偏差」導致的抓空、碰撞等失誤。

該圖展示了 WorldArena 基準中深度準確性（Depth Accuracy）高低分案例對比，直觀說明 Ctrl-World 以 0.9300 全球第一梯隊技術優勢：

高分案例（深度準確性 91.58 ）：在「stack blocks three」與「stack bowls two」任務中，生成深度圖與真實場景（GT）高度一致，物體空間位置穩定、透視關系合理，機械臂與物體保持正確的空間分離與物理接觸，體現精準的三維空間結構認知；
低分案例（深度準確性 59.07）：同場景下出現機械臂與物體異常融合（穿透）、嚴重幾何失真、鬼影模糊及陰影缺失，空間完整性崩塌。

4. 策略評估一致性全球第一（Pearson r=0.986）：虛擬測試 = 真實測試

在最具實用價值的策略評估（Policy Evaluator）任務中，Ctrl-World 與真實物理模擬器（RoboTwin 2.0）的評估結果相關性高達 0.986，近乎完美復刻真實環境動態。這意味著開發者可直接用 Ctrl-World 測試機器人策略，無需搭建昂貴的真實物理環境，大幅降低研發成本。

世界模型與物理模擬器的策略評估結果相關性：

Ctrl-World 的 Pearson r=0.986，近乎完美復刻真實環境評估結果，遠高于英偉達 Cosmos-Predict 2.5 的 0.483，印證了其作為虛擬仿真環境的可靠性。

從指標高分到任務成功：

解碼 Ctrl-World 的「實力轉化」

Ctrl-World 在物理貼合度、3D 準確性及可控性等維度的全面領先，并非僅僅是實驗室里的數字游戲，而是直接決定了其作為「機器人大腦」的實用價值。WorldArena 的評測數據清晰揭示了這種轉化關系：

1. 高保真策略評估：虛擬測試即真實測試

在 Policy Evaluator 任務中，Ctrl-World 與 RoboTwin 物理模擬器的評估相關性高達 0.986，這意味著在 Ctrl-World 中測試的機器人策略性能，與在真實物理環境中測試的結果幾乎無差異。相比之下，Cosmos-Predict 2.5 的相關性僅為 0.483。這一差距的背后的技術邏輯在于：Ctrl-World 通過顯式動作建模（Action-Conditioned）架構，將機械臂關節角度、末端執行器位姿等低層物理參數直接作為生成條件，強制模型學習「執行動作 A→產生狀態 B」的因果物理鏈，而非僅僅根據文字描述「猜測」動作。

2. 動作規劃成功率：物理準確性直接決定任務成敗

在 Action Planner 任務中，雖然當前所有世界模型的絕對成功率仍有提升空間，但 Ctrl-World 的物理準確性優勢為其奠定了最可靠的基礎。在閉環動作執行任務中，物理貼合度和軌跡精度的高低直接決定了機械臂能否完成「調整瓶子」、「點擊鈴鐺」等操作。Ctrl-World 的軌跡精度（0.4766）和深度準確性（0.9300）確保了生成的動作序列在真實機器人上執行時，能夠精準到達目標位置并維持物理穩定的交互，避免了因「空間感知偏差」導致的抓空、碰撞等操作失誤。

3. 合成數據的有效性：從「能生成」到「能訓練」

在 Data Engine 任務中，Ctrl-World 生成數據的物理合理性確保了其可用于訓練真實策略。原論文指出，許多模型生成的合成數據雖然視覺上清晰，但因缺乏物理一致性，訓練出的策略在真實環境中完全失效（「virtual data training, real world failure」）。而 Ctrl-World 通過嵌入物理引擎約束的訓練方式，確保生成的視頻不僅「看起來對」，更「物理上對」，使其合成的視頻 - 動作序列真正具備訓練價值。

Ctrl-World 的「制勝密碼」

1. 動作條件化（Action-Conditioned）架構

與 Genie Envisioner、GigaWorld 等文本條件化模型不同，Ctrl-World 采用顯式動作建模，直接將機器人動作參數（關節扭矩、夾爪開合度）注入生成過程。原論文明確指出：「explicit action modeling plays a critical role in producing physically plausible interactions」（顯式動作建模對產生物理合理交互至關重要）。這使其能夠精確模擬接觸力反饋、慣性傳遞等物理現象，從根本上避免了文本模型常見的「物體穿透機械臂」、「隔空吸附」等錯誤。

2. 物理引擎約束嵌入

Ctrl-World 在訓練過程中嵌入物理引擎約束，將牛頓力學定律「內化」為生成過程的硬約束。不同于單純依賴像素統計規律的通用視頻模型，Ctrl-World 通過物理引擎監督，強制生成內容遵守質量、摩擦、碰撞守恒律。這正是其策略評估相關性達到 0.986 的核心原因 —— 生成過程受物理規律約束，模擬的環境動態與真實物理模擬器的誤差極小。

3. 多視圖聯合與視頻預測模型

針對 Depth Accuracy 第一梯隊成績，Ctrl-World 融合多視圖聯合預測與視頻預測模型，不僅預測 RGB 像素，更隱式建模深度圖與點云結構，利用多視角數據訓練空間認知能力，使其在處理「堆疊積木」等需要精確深度準確性的任務時，成功率超僅使用單目視頻訓練的模型。

從「生成好看」到「真能干活」

世界模型進入新階段

清華陳建宇團隊聯合斯坦福 Chelsea Finn 團隊研發的 Ctrl-World 在 WorldArena 拿下「具身任務第一、視頻生成綜合第二」的佳績，核心在于其精準把握了具身世界模型的本質 ——「以物理規律為根，以空間認知為骨，以功能 utility 為魂」。隨著更多模型加入評測、更多場景被納入體系，WorldArena 將持續推動具身世界模型向「更懂物理、更有空間感、更能干活」的方向發展，加速機器人自主智能的落地進程。

WorldArena 相關資源

項目主頁：http://world-arena.ai
論文地址：http://arxiv.org/abs/2602.08971
GitHub 開源：https://github.com/tsinghua-fib-lab/WorldArena
評測榜單：https://huggingface.co/spaces/WorldArena/WorldArena

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.