![]()
別再只盯著大模型競技場了!具身智能的“終極排位賽”——Embodied Arena 剛剛上線。
作者丨湯宏垚
![]()
具身智能是當前最為火熱的研究領域之一,然而,面對海量的模型和基準測試,研究者們常常陷入茫然和困惑——哪些模型的綜合具身能力最強?如何客觀評價具身AI模型的能力邊界?未來具身模型的演進應該朝著什么方向努力?近日,由國內外10余家頂尖院校和研究機構聯合推出的Embodied Arena正式發布。
Embodied Arena是一個全面、統一、持續演進的具身AI評測平臺,聚焦通用具身大腦能力,涵蓋22+基準測試和30+代表性模型,建立基準全面、能力體系完備的綜合評估體系,并通過深度分析揭示了七大關鍵技術洞察,為未來具身模型的發展方向提供了重要指引。
01
破解具身AI三大核心挑戰
具身AI作為通向AGI的關鍵路徑,一直面臨三大核心挑戰:
1.能力定義不清:缺乏對具身AI核心能力的系統性理解
2.評測標準缺失:各個基準測試標準不一,無法橫向對比
3.數據獲取瓶頸:缺乏可擴展的自動化數據生成方法
Embodied Arena通過構建系統性具身大腦能力分類、統一具身評測基礎設施和LLM驅動的自動化具身數據生成框架,試圖解決這三大難題。
02
三大任務類型,22+基準測試,30+模型全方位評估具身智能
平臺覆蓋3大核心任務類型,構建完整評估體系:
具身問答:涵蓋2D/3D視覺問答,評估多模態感知、理解、推理能力
具身導航:包含物體導航、位置導航、指令導航,多方面檢驗具身導航能力
具身任務規劃:多層級規劃能力評估,考察復雜任務理解、拆分、規劃能力
![]()
03
系統性能力分類:7大核心能力、25細分能力維度全面覆蓋
![]()
Embodied Arena建立了業界首個系統性具身AI大腦能力分類法,涵蓋7大核心能力、25個細分維度:
物體感知(Object Perception)
通過視覺輸入識別和理解具身環境中的物體。包含物體類型識別、物體屬性判斷(顏色、形狀、材質等)、物體狀態檢測(開/關、靜止等)、物體數量計數四個維度。
空間感知(Spatial Perception)
通過視覺分析理解3D環境中的空間關系和定位。涵蓋空間關系判斷、空間距離估算、空間位置定位、空間尺寸估計四個維度。
時序感知(Temporal Perception)
理解具身場景中的時序事件和時序關系。包括時序事件描述和時序順序判斷兩個維度。
具身知識(Embodied Knowledge)
在具身情境中應用通用知識和具身知識。涵蓋通用知識運用和可供性預測兩個維度。
具身推理(Embodied Reasoning)
在具身場景中的多維度推理能力。包含物體推理、空間推理、時序推理、知識推理、任務推理五個維度。
具身導航(Embodied Navigation)
在復雜環境中進行不同類型引導的導航能力。涵蓋物體導航、位置導航、指令導航三個維度。
具身任務規劃(Embodied Task Planning)
復雜具身任務的策略規劃和執行能力。包含基礎規劃、視覺參考規劃、空間參考規劃、時序參考規劃、知識參考規劃五個維度。
這一分類法不僅為現有22+基準測試提供了統一的能力映射框架,更為具身AI大腦研究建立了清晰的技術評估標準和技術路線圖。
04
平臺架構:從數據生成到模型評測的完整閉環
Embodied Arena采用模塊化設計,實現了從模型接入到結果分析的完整評測流程:
多源模型支持:兼容HuggingFace、ModelScope、API等多種接入方式,已集成30+先進模型
跨基準跨模型統一的評測管線:對齊不同基準集數據與不同模型的評測接入方式,統一計算并呈現對比評測結果
自動化數據生成:基于LLM的場景生成和能力導向數據演進機制,確保評測數據的多樣性和時效性
實時排行榜:提供具身基準數據集視角和具身能力視角雙重對比,每雙周更新,為研究方向提供精準指引
05
LLM驅動的自動數據生成框架
傳統具身AI評測基準面臨數據分布固定、可擴展性與多樣性受限的挑戰。Embodied Arena引入了LLM驅動的自動化數據生成框架來解決上述挑戰,包含兩個關鍵組件:
自動化場景生成:
場景規劃:定義房間類型和空間關系
功能分區:將房間劃分為活動特定區域
布局優化:放置物體并優化物體布局
能力導向數據演進:
構建數據生成流程:構建仿真驅動的程序化數據生成流程,包含了任務定義,模板構建,場景生成,基于仿真與腳本的數據生成以及數據篩選的關鍵階段。
建立難度天梯:從場景復雜度、語言復雜度、任務復雜度三個方向構建數據模板,生成不同難度的數據,提升數據多樣性。
動態數據演進:根據模型表現生成特定數據,并通過抽樣檢測保證數據質量,確保評測集始終具有挑戰性。
![]()
06
七大關鍵發現,揭示具身AI發展現狀
通過對30+模型在22+基準上的全面評測,Embodied Arena揭示了具身AI領域的七大關鍵洞察:
1.業界領先的多模態基礎模型領跑綜合能力評測榜單,專有具身模型憑借針對性具身數據訓練在相關特定基準上實現局部反超,但也暴露出針對單一基準的過擬合風險
業界領先的通用多模態基礎模型(如GPT-o3、Gemini-2.5-Pro)憑借其千億級參數規模和海量預訓練數據在多基準測試中相較具身模型取得10%-20%的評測指標領先,充分展現出跨任務的整體性能優勢。然而,在相似參數規模下,通過針對性具身數據的訓練,專用具身模型可以在特定基準上顯著超越通用模型——RoboBrain2.0在Where2Place上準確率達到73.59%,遠超GPT-o3的33.46%,專用導航模型在VLN任務上也明顯優于同規模通用模型,如StreamVLN達到54.90%成功率,而Claude-3.7-Sonnet僅為18.93%。然而,在這種針對性具身數據增訓之下,具身模型往往在特定基準測試中表現出色卻在其他任務上大幅下滑,呈現出較大性能波動,暴露出"刷榜式"過擬合而非真正能力提升的問題,為模型的通用性和實際應用帶來了潛在挑戰。因此,如何在避免特定能力過擬合式優化的同時實現具身智能核心能力的全面均衡提升,將成為未來具身模型研究的重要方向。
2.具身模型的物體/空間/時間感知和具身知識能力制約其高階推理能力,物體感知和空間感知是基礎能力中的短板。
多基準綜合評估結果表明,模型基礎具身能力的缺陷直接制約其高階推理能力表現。具體體現為:模型的基礎具身能力(物體感知、空間感知、時間感知、具身知識)與高階推理能力呈顯著正相關,斯皮爾曼等級相關系數ρ達0.80,且各項基礎具身能力均與高階推理能力呈顯著正相關(ρ范圍為0.68~0.77);同時,模型在高階推理任務上的表現(平均得分33.64)總體差于其基礎具身能力整體表現(平均得分38.84)。其中基礎具身能力中,模型的物體感知(平均得分38.33)與空間感知(平均得分28.62)能力尤為薄弱,這些結果共同揭示模型高階推理能力對基礎具身能力的深度依賴性。
3.具身感知與推理能力與下游任務性能顯著正相關相比端到端框架,任務導向智能體框架更能促進模型具身能力向下游任務性能轉化
模型在具身能力(物體感知、空間感知、時間感知、具身知識和具身推理)和下游任務(具身導航、具身任務規劃)的綜合排名表明,模型的具身能力與下游任務性能呈顯著正相關 (斯皮爾曼等級相關系數ρ=0.80),且各項具身能力均與下游任務性能呈顯著正相關 (ρ范圍為0.73~0.83.)。框架對比實驗進一步驗證,采用任務導向智能體框架(即通用模型集成于下游任務專用智能體框架)時,模型具身能力與下游任務性能呈顯著正相關(ρ=0.79),導航與任務規劃成功率分別達36.21%和40.08%;而端到端框架(即通用模型直接應用于下游任務)僅呈中等相關性(ρ=0.40),導航成功率僅為5.80%,暴露出缺乏任務適配機制的顯著能力短板。值得注意的是,當端到端框架因缺乏任務適配機制而表現不佳時,通過針對下游任務的架構創新與領域數據訓練可使模型實現性能躍升(VLN專用模型導航成功率最高可達50%以上)。綜上,強化具身能力是基礎,優化智能體框架的能力轉化機制是核心支撐,而構建下游任務專用模型則是實現垂直領域性能突破的有效路徑。
4.具身任務下的Scaling Law尚未顯現。參數規模的擴展無法帶來一致的性能提升;增加具身數據雖可提升特定任務表現,常伴隨過擬合風險
當前具身任務下尚未觀察到明顯的Scaling Law。在參數規模層面,部分模型(如InternVL3)在具身問答和任務規劃任務中,增大參數規模能夠帶來性能提升;但在具身導航任務中,增大參數反而可能導致模型性能下降(如RoboBrain2.0-7B優于RoboBrain2.0-32B),這表明參數層面的Scaling Law并未普遍顯現。在數據層面,增加具身任務特定數據雖可提升特定任務表現,但往往伴隨過擬合風險,難以在所有能力上實現全面提升。例如,Embodied-R1與SpaceR均基于Qwen-2.5-VL-3B-Instruct訓練,卻均未在所有能力項上取得一致提升。這主要源于當前具身任務數據在多樣性、廣度和規模方面仍顯不足。此外,現有具身模型的架構與訓練方式不統一,且多數模型僅有一個或少數幾個參數規模的版本,也限制了對具身模型Scaling Law 更全面深入的分析。
5.推理模型通過RFT在多個基準測試上展現出強大的性能表現在分布外泛化能力方面,RFT相較SFT的潛在優勢有待進一步驗證
RFT能夠顯著增強推理模型在多項具身基準中的性能,并屢次刷新性能紀錄。例如,GPT-o3在多種任務規劃基準中表現優異,Space-R在OpenEQA上達到新SOTA,Embodied-R1在Affordance預測任務中實現突破,VLN-R1則進一步驗證了RFT對導航成功率的提升作用。這表明,RFT有效促進了模型將基礎感知能力整合為高階推理技能,使其能夠勝任多步推理、序列決策與精確操作等復雜任務。此外,經RFT訓練的具身模型已展現出一定的分布外泛化潛力。以Embodied-R1為例,在經過RFT訓練后,其在不同分布外基準測試中的性能均較僅使用SFT的版本有顯著提升。因此,基于RFT的訓練范式為具身智能的發展提供了極具潛力的路徑,但其泛化能力的深度與廣度仍需進一步探索和驗證。
6.原生3D信息處理方法面臨多模態對齊的挑戰,2D-3D融合框架憑借3D信息與2D視覺-語言基座能力的對齊機制,顯著增強具身模型的空間理解與推理能力
3D表征提供了完整空間結構和精確幾何信息,因此是實現精確空間推理和物體交互的關鍵。然而,直接處理點云或體素的原生3D表征方法缺乏與2D視覺-語言基座能力的對齊,無法充分利用2D基座模型通過大規模視覺-語言預訓練獲得的豐富語義能力。3D具身問答能力評測表明,依賴原生3D表征的LEO為48.48分,而采用2D-3D表征融合的具身模型——GPT4Scene-HDM達到62.11分,LL3DA獲得62.90分。這種顯著差異反映出,在當前缺乏通用3D-語言基座模型的情況下,從零構建面向具身的3D幾何與語言的對齊關系,不如在已有2D視覺-語言對齊基礎上增強3D空間感知高效。盡管2D-3D融合框架已成為兼顧基座模型語義能力與精確空間感知的有效范式,其本質上仍屬于目前過渡性質的妥協方案,長遠來看,如何通過多階段訓練策略或設計創新性的模型架構,實現原生3D信息與語言的深度對齊,進而構建更為直接、高效的原生3D基座模型,是未來極具挑戰性和前瞻性的關鍵研究方向。
7.具身指向(Embodied Pointing)作為核心表征,能夠驅動基礎能力與下游任務的雙重提升。然而,其在復雜具身任務中的潛力有待進一步發掘。
具身指向能夠有效提升基礎能力與下游任務性能,其核心在于充當了基礎性的“錨定機制”(Grounding Mechanism)。該機制通過將抽象語言與精確物理坐標緊密關聯,統一了感知、推理與規劃等原本割離的子任務,顯著增強了模型的認知整合能力。這種整合進而提高了模型在看似無關甚至分布外任務上的泛化表現。然而,這一潛力在當前實踐中仍面臨明顯挑戰。盡管經過指向數據微調的模型在特定基準測試中表現優異,但在應對復雜指令與動態場景時,其性能顯著下滑。這表明模型可能僅僅“過擬合”了簡單的指向模式,并未真正習得錨定所必需的綜合推理能力,反映出專一化訓練與通用推理之間的內在權衡。因此,如何系統掌握具身指向技術并高效運用相關訓練數據,已成為推動先進具身智能發展的核心挑戰,也為評估與增強模型多模態理解與推理能力提供了重要路徑。
07
開放合作,共建具身AI生態
Embodied Arena采用開放式設計,歡迎全球研究者貢獻:
模型提交:支持開源和閉源模型,提供專業技術支持
基準集成:新基準可靈活接入,保持評測體系與時俱進
雙周更新:確保排行榜實時反映最新進展
訪問地址:https://embodied-arena.com/
08
結語
Embodied Arena通過建立全面的具身大腦能力分類體系、統一的評測基礎設施和持續演進的自動化數據生成機制,不僅為當前研究提供了客觀評估標準,更為具身AI的未來發展指明了清晰方向。
隨著更多模型和基準的加入,Embodied Arena將持續為研究者提供最全面、最便捷的具身AI能力評估,助力構建真正理解和改變物理世界的智能體。
論文地址:http://arxiv.org/abs/2509.15273
平臺訪問:https://embodied-arena.com/
技術支持:歡迎通過官網聯系團隊
![]()
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.