<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      清華陳建宇×斯坦福Chelsea團隊世界模型Ctrl-World能力登頂全球

      0
      分享至



      機器之心編輯部

      在全球具身智能領域的頂級權威評測 WorldArena 榜單中,清華陳建宇(星動紀元創始人)團隊聯合斯坦福 Chelsea Finn(PI 創始人) 團隊研發的 Ctrl-World 世界模型交出優異答卷:



      • 具身任務能力斬獲全球第一,更在主體一致性、軌跡精度、深度準確性、策略評估一致性四大核心維度登頂;
      • 視頻生成能力排名全球第二,僅次于阿里 Wan 2.6,強勢超越谷歌 Veo 3.1、英偉達 Cosmos-Predict 2.5 等世界頂尖模型;
      • Ctrl-World 成為在「視頻生成質量」(看起來真實) 與「具身任務」(真正可用) 兩大維度均躋身頂級梯隊的世界模型



      14 個世界模型在 WorldArena 融合多維度表現的 EWMScore 綜合指標評分

      (a) Ctrl-World 在具身策略評估一致性上高達 0.986,遠超英偉達等同類模型;(b) Ctrl-World 以 59.70 在視頻生成質量上排名全球第二,超越谷歌 Veo 3.1(58.87),僅次于阿里 Wan 2.6(61.86)

      WorldArena:

      全球具身世界模型的「終極試煉場」

      WorldArena 之所以能成為行業公認的權威榜單,核心在于其「全面、硬核、具引領性」的定位,徹底區別于泛化的 AI 評測體系,其專業權威源于三大核心特質:

      1. 硬核基準:頂尖學術共建,全方位綜合評測

      WorldArena 由清華大學牽頭,聯合普林斯頓大學、新加坡國立大學、北京大學、香港大學、中科院、上海交通大學、中國科學技術大學等 8 所全球頂尖學術機構共同研發,團隊成員均為具身智能、計算機視覺、機器人學領域的權威學者,共同制定了兼具科學性與實用性的硬核評測標準。

      該體系聚焦具身世界模型這一核心領域,打造了涵蓋 16 大核心指標、3 大真實應用任務的全方位綜合測試場景,全面考核模型的感知精度、物理理解、空間認知、動作預測及實際落地適配能力,實現對具身智能核心技術的全方位、深層次檢驗,而非單一維度的能力比拼。

      2. 參賽陣容鼎盛:全球巨頭與頂尖機構同臺競技

      得益于其權威的評測標準與行業影響力,全球頂尖具身世界模型研發團隊均主動參與評測,首批參評陣容涵蓋國際科技巨頭、頂尖學術機構,包括:谷歌、英偉達、阿里、字節、智譜、智元、極佳視界、清華大學、斯坦福大學、北京大學、香港大學、普林斯頓大學等

      此次共有全球頂尖 14 款參賽模型同臺競技,覆蓋通用視頻生成衍生模型、機器人專用模型等所有主流技術路線,真正形成「全球頂級玩家齊聚」的格局,榜單結果不僅是各模型能力的直觀排名,更成為行業技術研發、方向布局的重要「風向標」,引領具身智能領域的創新發展。

      3. 評測硬核:16 項指標 + 3 大任務,直擊「真干活」的核心需求

      WorldArena 的評測體系圍繞「具身實用」設計,聚焦「真能干活」:



      視頻質量 6 大評估維度示意圖:視覺質量、運動質量、內容一致性、物理貼合度、3D 精度、可控性,每個維度都有明確的優劣判斷標準

      6 大核心維度涵蓋視覺質量、運動質量、內容一致性、物理貼合度(Physics Adherence)、3D 準確性(3D Accuracy)、可控性,細分為 16 項量化指標,每一項都對應機器人實際應用的痛點;



      具身任務評估體系概覽:通過數據引擎、策略評估、動作規劃三大任務,全面測試模型的實戰能力

      3 大具身任務(數據引擎、策略評估、動作規劃)模擬模型的真實使用場景,直接考核「生成的內容能不能訓練機器人」、「模擬的環境能不能測試策略」、「規劃的動作能不能完成任務」;

      70 位專業標注者對 3500 個視頻進行主觀評估,確保結果既符合技術標準,又貼近人類對「實用」的直覺判斷。



      現有世界模型基準與 WorldArena 的評測維度對比:

      該表從視頻質量 6 個子維度、具身任務 3 大核心角色及人類評估維度,全面對比了主流評測基準與 WorldArena 的覆蓋情況,直觀體現了 WorldArena 在具身任務評測上的獨家優勢,是其成為具身世界模型專屬評測金標準的核心依據。

      這種「技術指標 + 實用任務 + 人類校驗」的三重考核,讓 WorldArena 的排名不只是「分數高低」,更是模型實際應用價值的直接體現。

      Ctrl-World 四大具身維度登頂

      斬獲具身任務能力全球第一



      14 款世界模型在視頻質量三大維度(視覺質量、運動質量、內容一致性)的各項指標評分表:

      Ctrl-World 在主體一致性全球第一 (0.8411)



      14 款世界模型物理貼合度、3D 準確性及可控性評分:

      Ctrl-World 在軌跡準確性(0.4766)、深度準確性(0.9300)等核心指標上的領先地位,其中軌跡準確性(0.4766)位列全球第一

      1. 主體一致性全球第一(0.8411):筑牢具身任務落地的基礎

      Ctrl-World 以 0.8411 的得分拿下該指標全球第一。這一指標用于衡量視頻中生成物體的身份、外觀與形態在時序維度的穩定程度,Ctrl-World 的領先表現,使其生成的機器人操作視頻能最大程度規避物體位置漂移、形態形變或身份混淆等問題,為機器人作業提供了高保真的「數字孿生」交互對象。



      圖中展示了 WorldArena 基準中主體一致性(Subject Consistency)的高低分案例對比,直觀說明 Ctrl-World 以 0.8411 位列全球第一的技術優勢:

      • 高分案例(90.07):在「adjust bottle」任務中,瓶子在機械臂交互全過程中保持形狀、顏色、標識及位置的時序穩定,無漂移或形變,體現高保真「數字孿生」特性;
      • 低分案例(1.242):同場景下瓶子出現嚴重幾何變形與身份特征丟失,產生視覺噪聲,直接影響機器人策略訓練的可靠性。

      2. 軌跡精度全球第一(0.4766 ):動作精準度媲美真實物理軌跡

      軌跡準確性(Trajectory Accuracy)衡量機械臂運動軌跡與真實物理軌跡的對齊度,是機器人動作規劃的核心基礎。Ctrl-World 以 0.4766 的絕對優勢位列全球第一,意味著其生成的機械臂運動軌跡與真實世界物理運動幾乎完全吻合,為機器人提供了可信賴的「數字孿生」動作模板。



      圖中展示了 WorldArena 基準中軌跡準確性(Trajectory Accuracy)的高低分案例對比,直觀說明 Ctrl-World 以 0.4766 位列全球第一的技術優勢:

      • 高分案例(92.95):在 「move can pot」任務中,機械臂運動軌跡(紅色路徑線)與真實物理軌跡(GT)高度吻合,動作精準連貫,符合物理運動規律;
      • 低分案例(8.64):同場景下軌跡出現顯著偏離,伴隨異常跳躍和不連貫動作,無法復現真實物理運動。

      3. 深度準確性全球第一梯隊(0.9300 ):3D 空間認知遙遙領先

      在 3D 準確性維度的深度準確性(Depth Accuracy)指標上,Ctrl-World 以 0.9300(與第一位差距僅 0.0012)屬全球第一梯隊,展現了對三維空間結構的精準把握。這一能力直接決定機器人在抓取、堆疊、插入等精密操作中的成功率,避免因「空間感知偏差」導致的抓空、碰撞等失誤。



      該圖展示了 WorldArena 基準中深度準確性(Depth Accuracy)高低分案例對比,直觀說明 Ctrl-World 以 0.9300 全球第一梯隊技術優勢:

      • 高分案例(深度準確性 91.58 ):在「stack blocks three」與 「stack bowls two」任務中,生成深度圖與真實場景(GT)高度一致,物體空間位置穩定、透視關系合理,機械臂與物體保持正確的空間分離與物理接觸,體現精準的三維空間結構認知;
      • 低分案例(深度準確性 59.07):同場景下出現機械臂與物體異常融合(穿透)、嚴重幾何失真、鬼影模糊及陰影缺失,空間完整性崩塌。

      4. 策略評估一致性全球第一(Pearson r=0.986):虛擬測試 = 真實測試

      在最具實用價值的策略評估(Policy Evaluator)任務中,Ctrl-World 與真實物理模擬器(RoboTwin 2.0)的評估結果相關性高達 0.986,近乎完美復刻真實環境動態。這意味著開發者可直接用 Ctrl-World 測試機器人策略,無需搭建昂貴的真實物理環境,大幅降低研發成本。



      世界模型與物理模擬器的策略評估結果相關性:

      Ctrl-World 的 Pearson r=0.986,近乎完美復刻真實環境評估結果,遠高于英偉達 Cosmos-Predict 2.5 的 0.483,印證了其作為虛擬仿真環境的可靠性。

      從指標高分到任務成功:

      解碼 Ctrl-World 的「實力轉化」

      Ctrl-World 在物理貼合度、3D 準確性及可控性等維度的全面領先,并非僅僅是實驗室里的數字游戲,而是直接決定了其作為「機器人大腦」的實用價值。WorldArena 的評測數據清晰揭示了這種轉化關系:

      1. 高保真策略評估:虛擬測試即真實測試

      在 Policy Evaluator 任務中,Ctrl-World 與 RoboTwin 物理模擬器的評估相關性高達 0.986,這意味著在 Ctrl-World 中測試的機器人策略性能,與在真實物理環境中測試的結果幾乎無差異。相比之下,Cosmos-Predict 2.5 的相關性僅為 0.483。這一差距的背后的技術邏輯在于:Ctrl-World 通過顯式動作建模(Action-Conditioned)架構,將機械臂關節角度、末端執行器位姿等低層物理參數直接作為生成條件,強制模型學習「執行動作 A→產生狀態 B」的因果物理鏈,而非僅僅根據文字描述「猜測」動作。

      2. 動作規劃成功率:物理準確性直接決定任務成敗

      在 Action Planner 任務中,雖然當前所有世界模型的絕對成功率仍有提升空間,但 Ctrl-World 的物理準確性優勢為其奠定了最可靠的基礎。在閉環動作執行任務中,物理貼合度和軌跡精度的高低直接決定了機械臂能否完成「調整瓶子」、「點擊鈴鐺」等操作。Ctrl-World 的軌跡精度(0.4766)和深度準確性(0.9300)確保了生成的動作序列在真實機器人上執行時,能夠精準到達目標位置并維持物理穩定的交互,避免了因「空間感知偏差」導致的抓空、碰撞等操作失誤。

      3. 合成數據的有效性:從「能生成」到「能訓練」

      在 Data Engine 任務中,Ctrl-World 生成數據的物理合理性確保了其可用于訓練真實策略。原論文指出,許多模型生成的合成數據雖然視覺上清晰,但因缺乏物理一致性,訓練出的策略在真實環境中完全失效(「virtual data training, real world failure」)。而 Ctrl-World 通過嵌入物理引擎約束的訓練方式,確保生成的視頻不僅「看起來對」,更「物理上對」,使其合成的視頻 - 動作序列真正具備訓練價值。

      Ctrl-World 的「制勝密碼」

      1. 動作條件化(Action-Conditioned)架構

      與 Genie Envisioner、GigaWorld 等文本條件化模型不同,Ctrl-World 采用顯式動作建模,直接將機器人動作參數(關節扭矩、夾爪開合度)注入生成過程。原論文明確指出:「explicit action modeling plays a critical role in producing physically plausible interactions」(顯式動作建模對產生物理合理交互至關重要)。這使其能夠精確模擬接觸力反饋、慣性傳遞等物理現象,從根本上避免了文本模型常見的「物體穿透機械臂」、「隔空吸附」等錯誤。

      2. 物理引擎約束嵌入

      Ctrl-World 在訓練過程中嵌入物理引擎約束,將牛頓力學定律「內化」為生成過程的硬約束。不同于單純依賴像素統計規律的通用視頻模型,Ctrl-World 通過物理引擎監督,強制生成內容遵守質量、摩擦、碰撞守恒律。這正是其策略評估相關性達到 0.986 的核心原因 —— 生成過程受物理規律約束,模擬的環境動態與真實物理模擬器的誤差極小。

      3. 多視圖聯合與視頻預測模型

      針對 Depth Accuracy 第一梯隊成績,Ctrl-World 融合多視圖聯合預測與視頻預測模型,不僅預測 RGB 像素,更隱式建模深度圖與點云結構,利用多視角數據訓練空間認知能力,使其在處理「堆疊積木」等需要精確深度準確性的任務時,成功率超僅使用單目視頻訓練的模型。

      從「生成好看」到「真能干活」

      世界模型進入新階段

      清華陳建宇團隊聯合斯坦福 Chelsea Finn 團隊研發的 Ctrl-World 在 WorldArena 拿下「具身任務第一、視頻生成綜合第二」的佳績,核心在于其精準把握了具身世界模型的本質 ——「以物理規律為根,以空間認知為骨,以功能 utility 為魂」。隨著更多模型加入評測、更多場景被納入體系,WorldArena 將持續推動具身世界模型向「更懂物理、更有空間感、更能干活」的方向發展,加速機器人自主智能的落地進程。

      WorldArena 相關資源

      • 項目主頁:http://world-arena.ai
      • 論文地址:http://arxiv.org/abs/2602.08971
      • GitHub 開源:https://github.com/tsinghua-fib-lab/WorldArena
      • 評測榜單:https://huggingface.co/spaces/WorldArena/WorldArena

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中國男籃返京后原地解散,郭士強特意叮囑李弘權,細節太戳人

      中國男籃返京后原地解散,郭士強特意叮囑李弘權,細節太戳人

      現代小青青慕慕
      2026-03-03 11:08:09
      貌美如花卻身高2.26米,母親為婚嫁發愁

      貌美如花卻身高2.26米,母親為婚嫁發愁

      流云隨風去遠方
      2026-03-01 18:22:40
      外交部:中國駐伊朗周邊國家使領館已經派工作組赴口岸接應

      外交部:中國駐伊朗周邊國家使領館已經派工作組赴口岸接應

      閃電新聞
      2026-03-03 16:55:20
      5000萬砸金球!皇馬瘋搶曼城核心,這筆豪賭真能穩贏?

      5000萬砸金球!皇馬瘋搶曼城核心,這筆豪賭真能穩贏?

      卿子書
      2026-03-02 09:12:51
      中央軍委全力反腐敗,說明中國人民解放軍將要擔大任,干大事!

      中央軍委全力反腐敗,說明中國人民解放軍將要擔大任,干大事!

      安安說
      2026-01-29 09:33:17
      伊朗撐不了多久

      伊朗撐不了多久

      Ck的蜜糖
      2026-03-02 14:14:07
      上海至蘇州8 萬余元 “天價過路費” 刷屏,收費站已經妥善解決

      上海至蘇州8 萬余元 “天價過路費” 刷屏,收費站已經妥善解決

      小陸搞笑日常
      2026-03-03 10:36:33
      深夜驚魂!浦東航班突然掉頭返航,乘客卻集體點贊:這安全感絕了

      深夜驚魂!浦東航班突然掉頭返航,乘客卻集體點贊:這安全感絕了

      數碼八叔
      2026-03-03 12:28:03
      1964年錢學森被人投毒,毛主席得知后大怒,破例批準一項特殊待遇

      1964年錢學森被人投毒,毛主席得知后大怒,破例批準一項特殊待遇

      小莜讀史
      2026-02-28 11:13:03
      陳思誠連續13年為佟麗婭慶生,今年稱呼變了味,背后全是現實

      陳思誠連續13年為佟麗婭慶生,今年稱呼變了味,背后全是現實

      鄉野小珥
      2026-03-03 14:30:27
      我如果在澳門賭場輸了一千萬,跑回內地,不還了可以嗎

      我如果在澳門賭場輸了一千萬,跑回內地,不還了可以嗎

      賤議你讀史
      2026-03-03 12:35:42
      伊朗用血淚換來的教訓:一旦中美開戰,中國必須首先鎖定這一點

      伊朗用血淚換來的教訓:一旦中美開戰,中國必須首先鎖定這一點

      冷峻視角下的世界
      2026-02-20 07:45:35
      兒子家門口突然多出一把蔥,誰都沒敢動,一直放了8天,來答案了

      兒子家門口突然多出一把蔥,誰都沒敢動,一直放了8天,來答案了

      人間百態大全
      2026-03-03 06:40:03
      突然攻擊隊友涉毒!她的精神狀態又出問題了?

      突然攻擊隊友涉毒!她的精神狀態又出問題了?

      奮斗在韓國
      2026-03-03 16:53:41
      CCTV5直播!中國男籃VS日本時間敲定,3大猛將回歸,雙殺希望大了

      CCTV5直播!中國男籃VS日本時間敲定,3大猛將回歸,雙殺希望大了

      何老師呀
      2026-03-02 23:50:09
      中國承諾不先動用核武器,但若是美國炸毀北斗衛星,中國就輸了嗎

      中國承諾不先動用核武器,但若是美國炸毀北斗衛星,中國就輸了嗎

      奧字侃劇
      2026-03-03 15:55:01
      突發!莫斯科遭襲擊

      突發!莫斯科遭襲擊

      浙江之聲
      2026-03-03 15:01:36
      555人死亡!美軍損失3架戰機,內塔尼亞胡成了目標,更多國家卷入

      555人死亡!美軍損失3架戰機,內塔尼亞胡成了目標,更多國家卷入

      卷史
      2026-03-03 16:04:39
      凌晨時分,伊朗公布最新戰況,這個打法讓特朗普倍感驚訝

      凌晨時分,伊朗公布最新戰況,這個打法讓特朗普倍感驚訝

      混沌錄
      2026-03-03 16:53:03
      新華社消息|伊朗伊斯蘭革命衛隊稱將擊毀試圖通過霍爾木茲海峽的船只

      新華社消息|伊朗伊斯蘭革命衛隊稱將擊毀試圖通過霍爾木茲海峽的船只

      新華社
      2026-03-03 09:52:49
      2026-03-03 17:39:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12402文章數 142576關注度
      往期回顧 全部

      科技要聞

      擁抱AI的"牛馬":邊提效邊自嘲"自費"上班

      頭條要聞

      襲擊伊朗后 特朗普首次發表白宮講話:將不惜一切代價

      頭條要聞

      襲擊伊朗后 特朗普首次發表白宮講話:將不惜一切代價

      體育要聞

      35輪后積分-7,他們遭遇史上最早的降級

      娛樂要聞

      謝娜霸氣護夫:喊話薛之謙給張杰道歉

      財經要聞

      特朗普“不惜一切”!全球股債齊崩

      汽車要聞

      第一梯隊輔助駕駛加持 iCAR V27定檔3月13日上市

      態度原創

      親子
      健康
      手機
      公開課
      軍事航空

      親子要聞

      萌娃竟想當爸爸?童言童語惹爸爸媽媽爆笑

      轉頭就暈的耳石癥,能開車上班嗎?

      手機要聞

      OPPO Find X9 Ultra官宣首登全球市場!預定「全球影像機皇」?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗:擊中美空軍基地大樓

      無障礙瀏覽 進入關懷版