當(dāng)世界模型生成的視頻足以「以假亂真」,為何機器人依然「有眼無腦」?
2026 年 2 月 13 日,一則來自具身智能前沿的重磅消息引發(fā)學(xué)界與產(chǎn)業(yè)界震動:
由清華大學(xué)、北京大學(xué)、香港大學(xué)、普林斯頓大學(xué)、中科院、上海交通大學(xué)、中國科學(xué)技術(shù)大學(xué)、新加坡國立大學(xué)等頂尖機構(gòu)聯(lián)合推出的 WorldArena —— 首個面向具身世界模型的「功能 + 視覺」統(tǒng)一評測體系,正式面向全球開源發(fā)布。
這不是又一套「比誰畫得真」的榜單,而是一面照向世界模型本質(zhì)的鏡子。
![]()
爆點直擊:視覺滿分,任務(wù)零分?
WorldArena 首次撕開「美麗視頻」的偽裝
「很多模型的生成視頻,人眼看幾乎完美,但讓它真正指揮機器人抓個杯子 —— 立刻露怯。」
WorldArena 研究團隊直言:當(dāng)前世界模型評測被「視覺內(nèi)卷」綁架太久,誰的視頻更清晰、更流暢、更像好萊塢特效,誰就得分高。但真實世界從來不是電影 —— 機器人需要的是物理規(guī)律的理解、動作軌跡的精度、多步?jīng)Q策的穩(wěn)定,而非一幀幀精美的「幻燈片」。
WorldArena 首次用數(shù)據(jù)證明:視覺質(zhì)量與任務(wù)執(zhí)行能力,相關(guān)性僅有 0.36!
這意味著:一個模型可以生成奧斯卡級視頻,卻在真實任務(wù)中幾乎「失能」。
核心創(chuàng)新:從「看起來真實」到「用起來可靠」
WorldArena 不是對現(xiàn)有評測的修修補補,而是一次評測范式的根本重構(gòu)。
? 創(chuàng)新一:六維視覺評測,不止于「好不好看」
視覺不再是「單一審美」,而是拆解為視覺質(zhì)量、動作質(zhì)量、內(nèi)容一致性、物理遵循性、3D 準(zhǔn)確性、可控性六大維度。尤其是物理遵循性與 3D 空間理解,被提升到與畫質(zhì)同等重要的地位 —— 因為機器人不信「魔術(shù)」,只信物理。
? 創(chuàng)新二:三大具身任務(wù),直接拷問「能不能用」
WorldArena 在全球范圍內(nèi)首次將世界模型置于真實的具身任務(wù)流水線中進(jìn)行壓力測試:
作為數(shù)據(jù)生成引擎:它合成的軌跡,能否訓(xùn)練出更好的策略模型?
作為策略評估器:它對環(huán)境動態(tài)的建模,是否與真實物理引擎高度相關(guān)?
作為行動規(guī)劃器:它能否閉環(huán)執(zhí)行長時序、多步交互任務(wù)?
結(jié)果令人警醒:多數(shù)視覺高分模型,在任務(wù)評測中「潰不成軍」。
而少數(shù)以動作條件建模為核心的模型(如 CtrlWorld),雖視覺非頂尖,卻在策略評估相關(guān)性上高達(dá) 0.986,幾乎媲美真實環(huán)境。
EWMScore:一個分?jǐn)?shù),對齊人類感知與模型能力
WorldArena 還推出了 EWMScore 綜合評分體系,將多維客觀評測指標(biāo)統(tǒng)一映射為一個可橫向?qū)Ρ鹊姆謹(jǐn)?shù)。
更關(guān)鍵的是:EWMScore 與人類主觀評估高度正相關(guān) —— 它不再是一個「黑盒學(xué)術(shù)指標(biāo)」,而是一個能反映真實人類感知的標(biāo)尺。
學(xué)術(shù)深意:世界模型的「iPhone 時刻」還沒到
「我們離真正可用的具身世界模型,還有一段關(guān)鍵的路要走。」
這不是唱衰,而是一次清醒的集體轉(zhuǎn)身。
WorldArena 用系統(tǒng)化實驗向全球研究者發(fā)出信號:視覺生成能力已逼近天花板,但功能智能才剛剛破土。
當(dāng)模型能生成一杯「看起來很冰的可樂」,卻不知道冰塊會浮起、杯壁會凝水珠,它就仍然是「視覺模型」,而非「世界模型」。
開放共建,評測權(quán)交給全球社區(qū)
WorldArena 不是閉門造車的學(xué)術(shù)工具,而是一個完全開放、可復(fù)現(xiàn)、持續(xù)迭代的社區(qū)平臺。
項目主頁:http://world-arena.ai
論文已上線:http://arxiv.org/abs/2602.08971
評測榜單實時更新:https://huggingface.co/spaces/WorldArena/WorldArena
代碼與數(shù)據(jù)全開源:https://github.com/tsinghua-fib-lab/WorldArena
「我們不是在造一個排行榜,而是在為具身智能建立一套‘駕照考試系統(tǒng)’。」
—— WorldArena 團隊
評測細(xì)節(jié)
多維度視頻質(zhì)量評估:
為了建立系統(tǒng)化的視覺評測標(biāo)準(zhǔn),WorldArena 構(gòu)建了六大核心維度,從感知真實到物理真實,全面刻畫模型生成能力。
![]()
圖 1 WorldArena 在六個關(guān)鍵維度對世界模型生成質(zhì)量進(jìn)行全面評估
1. 視覺質(zhì)量
首先,我們評估視頻是否「看起來真實」。通過圖像質(zhì)量、美學(xué)質(zhì)量與 JEPA 相似性等指標(biāo),衡量生成視頻在清晰度、色彩協(xié)調(diào)性及分布相似性方面的表現(xiàn)。這一維度主要刻畫模型在感知層面的真實程度與視覺表現(xiàn)力。

2. 動作質(zhì)量
僅有清晰畫面遠(yuǎn)遠(yuǎn)不夠,運動是否合理同樣關(guān)鍵。
我們通過動態(tài)程度、光流連續(xù)性與動作平滑性,分析視頻中運動的強度、連續(xù)性與時間一致性。該維度用于刻畫生成內(nèi)容在時序?qū)用娴姆€(wěn)定程度與運動特征。

3. 內(nèi)容一致性
真實世界不會「瞬間變形」。
我們通過主體一致性與背景一致性指標(biāo),衡量對象與場景在時間與空間維度上的穩(wěn)定性,分析是否存在結(jié)構(gòu)漂移、身份變化或背景不連貫等現(xiàn)象。

4. 物理遵循性
對物理規(guī)律的遵循能力是連接「視覺」與「功能」的關(guān)鍵橋梁。通過對視頻中機械臂和物體交互質(zhì)量與軌跡準(zhǔn)確性,評估機器人與物體交互的合理程度,以及動作軌跡與物理規(guī)律之間的匹配關(guān)系。

5. 3D 準(zhǔn)確性
空間理解能力,是世界模型邁向具身智能的重要基礎(chǔ)。
我們通過深度準(zhǔn)確性與透視一致性指標(biāo),刻畫生成視頻的空間結(jié)構(gòu)是否符合幾何與透視規(guī)律,分析模型對三維結(jié)構(gòu)關(guān)系的理解能力。

6. 可控性
最后,也是最關(guān)鍵的一步:模型是否「聽得懂指令」。
通過指令跟隨、語義一致性與行動跟隨能力,評估模型對外部輸入的響應(yīng)程度,以及不同指令條件下生成結(jié)果的區(qū)分能力。

具身任務(wù)功能性評估:
WorldArena 的另一項核心創(chuàng)新,在于首次系統(tǒng)性評估世界模型在真實具身任務(wù)中的「功能能力」。
我們不再只問模型的視頻生成得有多逼真?而是進(jìn)一步追問:它能否真正參與任務(wù)執(zhí)行?
為此,WorldArena 從三個關(guān)鍵角色出發(fā),全面評估世界模型的能力:
作為數(shù)據(jù)生成引擎,是否能有效補充下游策略訓(xùn)練數(shù)據(jù)?
作為策略評估器,是否能準(zhǔn)確刻畫真實環(huán)境的狀態(tài)轉(zhuǎn)移?
作為行動規(guī)劃器,是否具備支持閉環(huán)執(zhí)行與長期決策的能力?
傳統(tǒng)評測往往停留在視覺層面,而 WorldArena 將評估延伸至下游具身任務(wù)本身。我們關(guān)注模型是否能夠在動態(tài)環(huán)境中做出有效決策,是否能夠處理復(fù)雜的多步交互,以及是否具備穩(wěn)定的規(guī)劃與執(zhí)行能力。通過這種功能導(dǎo)向的評測框架,我們得以更全面地理解世界模型的真實能力邊界,并判斷它們是否具備走向?qū)嶋H具身應(yīng)用的潛力。
![]()
圖 2 具身下游任務(wù)評測體系(數(shù)據(jù)合成引擎、策略評估器、動作規(guī)劃器)
EWMScore:統(tǒng)一的綜合評分體系
為了讓評測結(jié)果更直觀、更可比,WorldArena 引入了統(tǒng)一的綜合指標(biāo) ——EWMScore。EWMScore 通過整合多維度視頻評測指標(biāo),將視覺質(zhì)量、物理一致性與指令遵循能力等關(guān)鍵因素統(tǒng)一映射為一個綜合分?jǐn)?shù),為每個模型提供清晰、可橫向?qū)Ρ鹊男阅芸坍嫛8匾氖牵瑢嶒灲Y(jié)果表明該指標(biāo)與人工評估結(jié)果高度正相關(guān),能夠真實反映模型綜合能力。通過 EWMScore,我們讓世界模型的能力評估,從「多指標(biāo)碎片化比較」,走向「統(tǒng)一、可解釋、可對齊」的綜合衡量體系。
![]()
圖 3 14 個世界模型 EWMScore 及不同維度指標(biāo)對比
視頻質(zhì)量與功能之間的鴻溝:從視覺到執(zhí)行的能力差距
WorldArena 的系統(tǒng)性評估揭示了一個關(guān)鍵現(xiàn)實:當(dāng)前世界模型在視覺生成層面已取得顯著進(jìn)展,但在真正支撐具身智能任務(wù)與長期決策方面仍存在本質(zhì)短板。
具體而言,盡管許多模型能夠生成高度逼真的視覺效果,它們在復(fù)雜物理環(huán)境中的一致性與穩(wěn)定性卻明顯不足。尤其是在長時序、多步交互的任務(wù)中,模型往往難以持續(xù)遵循物理規(guī)律,容易出現(xiàn)動態(tài)漂移、目標(biāo)偏離或策略失穩(wěn)。這一現(xiàn)象表明,僅依賴視覺生成能力,遠(yuǎn)不足以突破具身智能的核心瓶頸。
通過對數(shù)據(jù)引擎、策略評估、動作規(guī)劃三類關(guān)鍵具身下游任務(wù)的系統(tǒng)評測,WorldArena 進(jìn)一步驗證了這一結(jié)論:當(dāng)前世界模型雖能生成「好看」的視頻,卻尚未具備支撐真實具身應(yīng)用的能力。
以數(shù)據(jù)引擎任務(wù)為例,我們利用世界模型生成合成軌跡,用于補充下游策略模型(如 VLA)的訓(xùn)練數(shù)據(jù)。實驗結(jié)果顯示,部分模型確實能夠帶來一定程度的性能提升,但整體來看,其生成數(shù)據(jù)質(zhì)量仍顯著落后于真實數(shù)據(jù),多數(shù)模型尚難以為下游策略學(xué)習(xí)提供穩(wěn)定且可靠的增益。
![]()
表 2 以世界模型作為數(shù)據(jù)合成引擎,訓(xùn)練得到的 VLA 模型性能對比
在動作控制型世界模型的評估中,我們通過「策略評估任務(wù)」衡量其是否能夠作為真實環(huán)境的有效代理。
具體而言,我們訓(xùn)練了一系列不同能力水平的 VLA(Pi 0.5) 模型,并分別讓它們與真實物理仿真環(huán)境和世界模型環(huán)境進(jìn)行交互,從而獲得兩組性能評估結(jié)果。通過計算兩者之間的相關(guān)性,我們可以判斷世界模型是否準(zhǔn)確刻畫了真實環(huán)境的狀態(tài)轉(zhuǎn)移規(guī)律。
在 CtrlWorld 與 Cosmos-Predict 2.5 上的實驗結(jié)果呈現(xiàn)出顯著差異:CtrlWorld 的策略評估相關(guān)系數(shù)高達(dá) 0.986,幾乎與真實環(huán)境評測結(jié)果保持一致,表明其在動態(tài)建模層面有效捕捉了真實環(huán)境的演化機制。相比之下,Cosmos-Predict 2.5 的相關(guān)性明顯較低,這一現(xiàn)象也與其在視覺生成評測中的表現(xiàn)形成呼應(yīng)。
![]()
圖 4 基于世界模型和物理仿真環(huán)境的策略評估結(jié)果相關(guān)性
在動作規(guī)劃任務(wù)中,我們進(jìn)一步將世界模型接入逆動力學(xué)模型,實現(xiàn)端到端的具身任務(wù)執(zhí)行。實驗發(fā)現(xiàn),盡管部分世界模型能夠生成視覺上合理的未來預(yù)測,但在支持閉環(huán)控制,尤其是長時序復(fù)雜任務(wù)時,其性能仍顯著落后于成熟的策略模型(如 Pi 0.5)。
這表明,當(dāng)前世界模型雖然在一定程度上捕捉到了環(huán)境動態(tài),卻尚不足以支撐穩(wěn)定、可靠的自主控制行為,尤其在長期決策與復(fù)雜交互場景中仍存在明顯短板。
![]()
表 3 基于世界模型進(jìn)行動作規(guī)劃的任務(wù)性能對比
這些實驗揭示了一個關(guān)鍵挑戰(zhàn):世界模型的終極目標(biāo),不是生成漂亮的視頻,而是成為可以支撐自主決策的環(huán)境代理。
真正可用的世界模型,必須理解物理規(guī)律、精確刻畫動作細(xì)節(jié)、在長時序任務(wù)中保持一致性并且在復(fù)雜環(huán)境中持續(xù)穩(wěn)定執(zhí)行。否則,它們?nèi)匀煌A粼凇敢曈X生成模型」的階段,而不是「具身智能基礎(chǔ)設(shè)施」。
WorldArena 的結(jié)論很明確:世界模型正在逼近真實世界,但距離真正可用,還有一段關(guān)鍵的路要走。
評測與人類感知的高度對齊
一個關(guān)鍵問題是:模型指標(biāo)好看,真的代表人類也覺得「真實」嗎?
WorldArena 在評測設(shè)計上,首次大規(guī)模引入人工評估,與自動指標(biāo) EWMScore 進(jìn)行深度對齊。我們不僅關(guān)注視覺清晰度,在四個核心維度上開展了大規(guī)模人類評測:視頻整體質(zhì)量如何、是否符合物理規(guī)律、是否遵循復(fù)雜指令、模型之間相對優(yōu)劣。
人工評估結(jié)果揭示出一個清晰趨勢:商業(yè)化大型視頻模型(如 Veo 3.1、Wan 2.6)在整體質(zhì)量、指令遵循和物理符合性上表現(xiàn)優(yōu)異,展現(xiàn)出強大的感知現(xiàn)實性與語義一致性。在具身世界模型中,基于動作條件的模型(如 CtrlWorld)顯著優(yōu)于基于文本驅(qū)動的模型,尤其在物理合理性方面表現(xiàn)更穩(wěn)定。這說明:明確的動作建模,是生成高質(zhì)量視覺預(yù)測的關(guān)鍵。
更重要的是,我們發(fā)現(xiàn) EWMScore 與人類主觀評估高度正相關(guān)。這表明,EWMScore 并非一個抽象的復(fù)雜指標(biāo),而是能夠有效刻畫人類綜合感知判斷的評測標(biāo)準(zhǔn)。但當(dāng)我們進(jìn)一步分析其與具身任務(wù)性能的關(guān)系時,一個更值得警惕的事實浮現(xiàn):與數(shù)據(jù)引擎任務(wù)的相關(guān)性為 0.600,與動作規(guī)劃任務(wù)的相關(guān)性僅為 0.360。
這意味著 —— 視覺真實,并不等于功能真實。即便模型在視覺質(zhì)量上獲得人類認(rèn)可,其對真實任務(wù)執(zhí)行能力的支撐仍然有限。尤其是在閉環(huán)控制場景中,視覺表現(xiàn)與功能性之間尚未建立強關(guān)聯(lián)。
![]()
圖 5 EWMScore 與人類評估、具身下游任務(wù)性能相關(guān)性分析
結(jié)語:從「生成世界」到「理解世界」,評測決定了技術(shù)進(jìn)化的方向
WorldArena 的意義,遠(yuǎn)不止于一套新指標(biāo)。
它標(biāo)志著具身智能評測正在從「審美導(dǎo)向」走向「功能導(dǎo)向」,從「論文里的對比實驗」走向「真實場景的能力驗證」。
當(dāng)世界模型不再比拼誰更「像電影」,而是誰更「懂物理、能干活、靠得住」,具身智能才真正開始。
? THE END
文章來源:機器之心。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.