視覺強≠能干活！清北普林斯頓等開源WorldArena，世界模型評測被顛覆

2026-02-14 19:48:40　來源: 算法與數(shù)學(xué)之美

北京舉報

分享至

當(dāng)世界模型生成的視頻足以「以假亂真」，為何機器人依然「有眼無腦」？

2026 年 2 月 13 日，一則來自具身智能前沿的重磅消息引發(fā)學(xué)界與產(chǎn)業(yè)界震動：

由清華大學(xué)、北京大學(xué)、香港大學(xué)、普林斯頓大學(xué)、中科院、上海交通大學(xué)、中國科學(xué)技術(shù)大學(xué)、新加坡國立大學(xué)等頂尖機構(gòu)聯(lián)合推出的 WorldArena —— 首個面向具身世界模型的「功能 + 視覺」統(tǒng)一評測體系，正式面向全球開源發(fā)布。

這不是又一套「比誰畫得真」的榜單，而是一面照向世界模型本質(zhì)的鏡子。

爆點直擊：視覺滿分，任務(wù)零分？

WorldArena 首次撕開「美麗視頻」的偽裝

「很多模型的生成視頻，人眼看幾乎完美，但讓它真正指揮機器人抓個杯子 —— 立刻露怯。」

WorldArena 研究團隊直言：當(dāng)前世界模型評測被「視覺內(nèi)卷」綁架太久，誰的視頻更清晰、更流暢、更像好萊塢特效，誰就得分高。但真實世界從來不是電影 —— 機器人需要的是物理規(guī)律的理解、動作軌跡的精度、多步?jīng)Q策的穩(wěn)定，而非一幀幀精美的「幻燈片」。

WorldArena 首次用數(shù)據(jù)證明：視覺質(zhì)量與任務(wù)執(zhí)行能力，相關(guān)性僅有 0.36！

這意味著：一個模型可以生成奧斯卡級視頻，卻在真實任務(wù)中幾乎「失能」。

核心創(chuàng)新：從「看起來真實」到「用起來可靠」

WorldArena 不是對現(xiàn)有評測的修修補補，而是一次評測范式的根本重構(gòu)。

? 創(chuàng)新一：六維視覺評測，不止于「好不好看」

視覺不再是「單一審美」，而是拆解為視覺質(zhì)量、動作質(zhì)量、內(nèi)容一致性、物理遵循性、3D 準(zhǔn)確性、可控性六大維度。尤其是物理遵循性與 3D 空間理解，被提升到與畫質(zhì)同等重要的地位 —— 因為機器人不信「魔術(shù)」，只信物理。

? 創(chuàng)新二：三大具身任務(wù)，直接拷問「能不能用」

WorldArena 在全球范圍內(nèi)首次將世界模型置于真實的具身任務(wù)流水線中進(jìn)行壓力測試：

作為數(shù)據(jù)生成引擎：它合成的軌跡，能否訓(xùn)練出更好的策略模型？
作為策略評估器：它對環(huán)境動態(tài)的建模，是否與真實物理引擎高度相關(guān)？
作為行動規(guī)劃器：它能否閉環(huán)執(zhí)行長時序、多步交互任務(wù)？

結(jié)果令人警醒：多數(shù)視覺高分模型，在任務(wù)評測中「潰不成軍」。

而少數(shù)以動作條件建模為核心的模型（如 CtrlWorld），雖視覺非頂尖，卻在策略評估相關(guān)性上高達(dá) 0.986，幾乎媲美真實環(huán)境。

EWMScore：一個分?jǐn)?shù)，對齊人類感知與模型能力

WorldArena 還推出了 EWMScore 綜合評分體系，將多維客觀評測指標(biāo)統(tǒng)一映射為一個可橫向?qū)Ρ鹊姆謹(jǐn)?shù)。

更關(guān)鍵的是：EWMScore 與人類主觀評估高度正相關(guān) —— 它不再是一個「黑盒學(xué)術(shù)指標(biāo)」，而是一個能反映真實人類感知的標(biāo)尺。

學(xué)術(shù)深意：世界模型的「iPhone 時刻」還沒到

「我們離真正可用的具身世界模型，還有一段關(guān)鍵的路要走。」

這不是唱衰，而是一次清醒的集體轉(zhuǎn)身。

WorldArena 用系統(tǒng)化實驗向全球研究者發(fā)出信號：視覺生成能力已逼近天花板，但功能智能才剛剛破土。

當(dāng)模型能生成一杯「看起來很冰的可樂」，卻不知道冰塊會浮起、杯壁會凝水珠，它就仍然是「視覺模型」，而非「世界模型」。

開放共建，評測權(quán)交給全球社區(qū)

WorldArena 不是閉門造車的學(xué)術(shù)工具，而是一個完全開放、可復(fù)現(xiàn)、持續(xù)迭代的社區(qū)平臺。

項目主頁：http://world-arena.ai
論文已上線：http://arxiv.org/abs/2602.08971
評測榜單實時更新：https://huggingface.co/spaces/WorldArena/WorldArena
代碼與數(shù)據(jù)全開源：https://github.com/tsinghua-fib-lab/WorldArena

「我們不是在造一個排行榜，而是在為具身智能建立一套‘駕照考試系統(tǒng)’。」

—— WorldArena 團隊

評測細(xì)節(jié)

多維度視頻質(zhì)量評估：

為了建立系統(tǒng)化的視覺評測標(biāo)準(zhǔn)，WorldArena 構(gòu)建了六大核心維度，從感知真實到物理真實，全面刻畫模型生成能力。

圖 1 WorldArena 在六個關(guān)鍵維度對世界模型生成質(zhì)量進(jìn)行全面評估

1. 視覺質(zhì)量

首先，我們評估視頻是否「看起來真實」。通過圖像質(zhì)量、美學(xué)質(zhì)量與 JEPA 相似性等指標(biāo)，衡量生成視頻在清晰度、色彩協(xié)調(diào)性及分布相似性方面的表現(xiàn)。這一維度主要刻畫模型在感知層面的真實程度與視覺表現(xiàn)力。

2. 動作質(zhì)量

僅有清晰畫面遠(yuǎn)遠(yuǎn)不夠，運動是否合理同樣關(guān)鍵。

我們通過動態(tài)程度、光流連續(xù)性與動作平滑性，分析視頻中運動的強度、連續(xù)性與時間一致性。該維度用于刻畫生成內(nèi)容在時序?qū)用娴姆€(wěn)定程度與運動特征。

3. 內(nèi)容一致性

真實世界不會「瞬間變形」。

我們通過主體一致性與背景一致性指標(biāo)，衡量對象與場景在時間與空間維度上的穩(wěn)定性，分析是否存在結(jié)構(gòu)漂移、身份變化或背景不連貫等現(xiàn)象。

4. 物理遵循性

對物理規(guī)律的遵循能力是連接「視覺」與「功能」的關(guān)鍵橋梁。通過對視頻中機械臂和物體交互質(zhì)量與軌跡準(zhǔn)確性，評估機器人與物體交互的合理程度，以及動作軌跡與物理規(guī)律之間的匹配關(guān)系。

5. 3D 準(zhǔn)確性

空間理解能力，是世界模型邁向具身智能的重要基礎(chǔ)。

我們通過深度準(zhǔn)確性與透視一致性指標(biāo)，刻畫生成視頻的空間結(jié)構(gòu)是否符合幾何與透視規(guī)律，分析模型對三維結(jié)構(gòu)關(guān)系的理解能力。

6. 可控性

最后，也是最關(guān)鍵的一步：模型是否「聽得懂指令」。

通過指令跟隨、語義一致性與行動跟隨能力，評估模型對外部輸入的響應(yīng)程度，以及不同指令條件下生成結(jié)果的區(qū)分能力。

具身任務(wù)功能性評估：

WorldArena 的另一項核心創(chuàng)新，在于首次系統(tǒng)性評估世界模型在真實具身任務(wù)中的「功能能力」。

我們不再只問模型的視頻生成得有多逼真？而是進(jìn)一步追問：它能否真正參與任務(wù)執(zhí)行？

為此，WorldArena 從三個關(guān)鍵角色出發(fā)，全面評估世界模型的能力：

作為數(shù)據(jù)生成引擎，是否能有效補充下游策略訓(xùn)練數(shù)據(jù)？
作為策略評估器，是否能準(zhǔn)確刻畫真實環(huán)境的狀態(tài)轉(zhuǎn)移？
作為行動規(guī)劃器，是否具備支持閉環(huán)執(zhí)行與長期決策的能力？

傳統(tǒng)評測往往停留在視覺層面，而 WorldArena 將評估延伸至下游具身任務(wù)本身。我們關(guān)注模型是否能夠在動態(tài)環(huán)境中做出有效決策，是否能夠處理復(fù)雜的多步交互，以及是否具備穩(wěn)定的規(guī)劃與執(zhí)行能力。通過這種功能導(dǎo)向的評測框架，我們得以更全面地理解世界模型的真實能力邊界，并判斷它們是否具備走向?qū)嶋H具身應(yīng)用的潛力。

圖 2 具身下游任務(wù)評測體系（數(shù)據(jù)合成引擎、策略評估器、動作規(guī)劃器）

EWMScore：統(tǒng)一的綜合評分體系

為了讓評測結(jié)果更直觀、更可比，WorldArena 引入了統(tǒng)一的綜合指標(biāo) ——EWMScore。EWMScore 通過整合多維度視頻評測指標(biāo)，將視覺質(zhì)量、物理一致性與指令遵循能力等關(guān)鍵因素統(tǒng)一映射為一個綜合分?jǐn)?shù)，為每個模型提供清晰、可橫向?qū)Ρ鹊男阅芸坍嫛８匾氖牵瑢嶒灲Y(jié)果表明該指標(biāo)與人工評估結(jié)果高度正相關(guān)，能夠真實反映模型綜合能力。通過 EWMScore，我們讓世界模型的能力評估，從「多指標(biāo)碎片化比較」，走向「統(tǒng)一、可解釋、可對齊」的綜合衡量體系。

圖 3 14 個世界模型 EWMScore 及不同維度指標(biāo)對比

視頻質(zhì)量與功能之間的鴻溝：從視覺到執(zhí)行的能力差距

WorldArena 的系統(tǒng)性評估揭示了一個關(guān)鍵現(xiàn)實：當(dāng)前世界模型在視覺生成層面已取得顯著進(jìn)展，但在真正支撐具身智能任務(wù)與長期決策方面仍存在本質(zhì)短板。

具體而言，盡管許多模型能夠生成高度逼真的視覺效果，它們在復(fù)雜物理環(huán)境中的一致性與穩(wěn)定性卻明顯不足。尤其是在長時序、多步交互的任務(wù)中，模型往往難以持續(xù)遵循物理規(guī)律，容易出現(xiàn)動態(tài)漂移、目標(biāo)偏離或策略失穩(wěn)。這一現(xiàn)象表明，僅依賴視覺生成能力，遠(yuǎn)不足以突破具身智能的核心瓶頸。

通過對數(shù)據(jù)引擎、策略評估、動作規(guī)劃三類關(guān)鍵具身下游任務(wù)的系統(tǒng)評測，WorldArena 進(jìn)一步驗證了這一結(jié)論：當(dāng)前世界模型雖能生成「好看」的視頻，卻尚未具備支撐真實具身應(yīng)用的能力。

以數(shù)據(jù)引擎任務(wù)為例，我們利用世界模型生成合成軌跡，用于補充下游策略模型（如 VLA）的訓(xùn)練數(shù)據(jù)。實驗結(jié)果顯示，部分模型確實能夠帶來一定程度的性能提升，但整體來看，其生成數(shù)據(jù)質(zhì)量仍顯著落后于真實數(shù)據(jù)，多數(shù)模型尚難以為下游策略學(xué)習(xí)提供穩(wěn)定且可靠的增益。

表 2 以世界模型作為數(shù)據(jù)合成引擎，訓(xùn)練得到的 VLA 模型性能對比

在動作控制型世界模型的評估中，我們通過「策略評估任務(wù)」衡量其是否能夠作為真實環(huán)境的有效代理。

具體而言，我們訓(xùn)練了一系列不同能力水平的 VLA（Pi 0.5）模型，并分別讓它們與真實物理仿真環(huán)境和世界模型環(huán)境進(jìn)行交互，從而獲得兩組性能評估結(jié)果。通過計算兩者之間的相關(guān)性，我們可以判斷世界模型是否準(zhǔn)確刻畫了真實環(huán)境的狀態(tài)轉(zhuǎn)移規(guī)律。

在 CtrlWorld 與 Cosmos-Predict 2.5 上的實驗結(jié)果呈現(xiàn)出顯著差異：CtrlWorld 的策略評估相關(guān)系數(shù)高達(dá) 0.986，幾乎與真實環(huán)境評測結(jié)果保持一致，表明其在動態(tài)建模層面有效捕捉了真實環(huán)境的演化機制。相比之下，Cosmos-Predict 2.5 的相關(guān)性明顯較低，這一現(xiàn)象也與其在視覺生成評測中的表現(xiàn)形成呼應(yīng)。

圖 4 基于世界模型和物理仿真環(huán)境的策略評估結(jié)果相關(guān)性

在動作規(guī)劃任務(wù)中，我們進(jìn)一步將世界模型接入逆動力學(xué)模型，實現(xiàn)端到端的具身任務(wù)執(zhí)行。實驗發(fā)現(xiàn)，盡管部分世界模型能夠生成視覺上合理的未來預(yù)測，但在支持閉環(huán)控制，尤其是長時序復(fù)雜任務(wù)時，其性能仍顯著落后于成熟的策略模型（如 Pi 0.5）。

這表明，當(dāng)前世界模型雖然在一定程度上捕捉到了環(huán)境動態(tài)，卻尚不足以支撐穩(wěn)定、可靠的自主控制行為，尤其在長期決策與復(fù)雜交互場景中仍存在明顯短板。

表 3 基于世界模型進(jìn)行動作規(guī)劃的任務(wù)性能對比

這些實驗揭示了一個關(guān)鍵挑戰(zhàn)：世界模型的終極目標(biāo)，不是生成漂亮的視頻，而是成為可以支撐自主決策的環(huán)境代理。

真正可用的世界模型，必須理解物理規(guī)律、精確刻畫動作細(xì)節(jié)、在長時序任務(wù)中保持一致性并且在復(fù)雜環(huán)境中持續(xù)穩(wěn)定執(zhí)行。否則，它們?nèi)匀煌Ａ粼凇敢曈X生成模型」的階段，而不是「具身智能基礎(chǔ)設(shè)施」。

WorldArena 的結(jié)論很明確：世界模型正在逼近真實世界，但距離真正可用，還有一段關(guān)鍵的路要走。

評測與人類感知的高度對齊

一個關(guān)鍵問題是：模型指標(biāo)好看，真的代表人類也覺得「真實」嗎？

WorldArena 在評測設(shè)計上，首次大規(guī)模引入人工評估，與自動指標(biāo) EWMScore 進(jìn)行深度對齊。我們不僅關(guān)注視覺清晰度，在四個核心維度上開展了大規(guī)模人類評測：視頻整體質(zhì)量如何、是否符合物理規(guī)律、是否遵循復(fù)雜指令、模型之間相對優(yōu)劣。

人工評估結(jié)果揭示出一個清晰趨勢：商業(yè)化大型視頻模型（如 Veo 3.1、Wan 2.6）在整體質(zhì)量、指令遵循和物理符合性上表現(xiàn)優(yōu)異，展現(xiàn)出強大的感知現(xiàn)實性與語義一致性。在具身世界模型中，基于動作條件的模型（如 CtrlWorld）顯著優(yōu)于基于文本驅(qū)動的模型，尤其在物理合理性方面表現(xiàn)更穩(wěn)定。這說明：明確的動作建模，是生成高質(zhì)量視覺預(yù)測的關(guān)鍵。

更重要的是，我們發(fā)現(xiàn) EWMScore 與人類主觀評估高度正相關(guān)。這表明，EWMScore 并非一個抽象的復(fù)雜指標(biāo)，而是能夠有效刻畫人類綜合感知判斷的評測標(biāo)準(zhǔn)。但當(dāng)我們進(jìn)一步分析其與具身任務(wù)性能的關(guān)系時，一個更值得警惕的事實浮現(xiàn)：與數(shù)據(jù)引擎任務(wù)的相關(guān)性為 0.600，與動作規(guī)劃任務(wù)的相關(guān)性僅為 0.360。

這意味著 —— 視覺真實，并不等于功能真實。即便模型在視覺質(zhì)量上獲得人類認(rèn)可，其對真實任務(wù)執(zhí)行能力的支撐仍然有限。尤其是在閉環(huán)控制場景中，視覺表現(xiàn)與功能性之間尚未建立強關(guān)聯(lián)。

圖 5 EWMScore 與人類評估、具身下游任務(wù)性能相關(guān)性分析

結(jié)語：從「生成世界」到「理解世界」，評測決定了技術(shù)進(jìn)化的方向

WorldArena 的意義，遠(yuǎn)不止于一套新指標(biāo)。

它標(biāo)志著具身智能評測正在從「審美導(dǎo)向」走向「功能導(dǎo)向」，從「論文里的對比實驗」走向「真實場景的能力驗證」。

當(dāng)世界模型不再比拼誰更「像電影」，而是誰更「懂物理、能干活、靠得住」，具身智能才真正開始。

? THE END

文章來源：機器之心。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.