網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

具身大模型：先對齊評測，再對齊世界

2026-04-01 17:30:56　來源: 機器人大講堂

安徽舉報

分享至

過去兩年，我們見過太多絲滑的機器人Demo，除了跳舞、打球等動作秀，還有端茶倒水、疊衣服、做飯等日常任務(wù)。

但這些視頻的共同特點是，發(fā)布完論文或視頻，就銷聲匿跡，你永遠不知道，它在現(xiàn)實中到底是什么樣。

這就是具身智能現(xiàn)在的核心矛盾：網(wǎng)上炒得火熱，但還停留在“視頻時代”。

最近，隨著宇樹科技IPO持續(xù)升溫，這個問題也越來越受到重視。特別是宇樹在招股書中提到，擬募資 42 億人民幣，其中半數(shù)資金砸向“智能機器人模型研發(fā)項目”，也就是俗稱的具身模型。

宇樹的成功，本質(zhì)上是硬件工程能力的勝利。成本控制、運動控制、量產(chǎn)能力，這些都已經(jīng)被驗證。

但行業(yè)已經(jīng)進入一個階段，市場真正想要的，是另一件事：誰能做出通用的具身模型？

01.

具身模型“關(guān)公戰(zhàn)秦瓊”

如果你熟悉 AI 相關(guān)的最新研究，就會發(fā)現(xiàn)每隔一段時間，就會有來自公司或高校的研究團隊，號稱在具身模型、VLA（視覺-語言-動作模型）上取得了突破。

它們在 Isaac Gym 或 ManiSkill 等仿真環(huán)境里，在一些任務(wù)上，展現(xiàn)出了驚人的成功率，達到 90% 甚至是 95%。模型在虛擬實驗室里動作優(yōu)雅、邏輯無瑕，好像具身智能的 ChatGPT 時刻已經(jīng)不遠了。

這些研究當(dāng)然很有價值，但它們有一個根本性問題：仿真環(huán)境與真實世界之間存在巨大的現(xiàn)實差距（Sim2Real Gap）。

在仿真環(huán)境中，物體材質(zhì)、摩擦系數(shù)、傳感器噪聲、物體擺放方式等，都是可控的，而現(xiàn)實世界是不可控的。

這也是為什么，很多模型在論文里 SOTA，一上真機就崩。這種現(xiàn)象在機器人領(lǐng)域非常普遍，也是具身智能遲遲無法大規(guī)模落地的重要原因之一。

Demo 視頻越來越多，論文越來越多，但大家很難真正比較不同模型之間的能力差異，就像是“關(guān)公戰(zhàn)秦瓊”。

問題不在模型數(shù)量，而在缺乏 Benchmark。

02.

RoboChallenge：具身智能的評測基礎(chǔ)

行業(yè)迫切需要一個類似 ImageNet、GLUE、Arena 這樣的真實世界統(tǒng)一評測標(biāo)準(zhǔn)，讓不同模型可以在同一環(huán)境下進行橫向比較。

正是在這樣的背景下，RoboChallenge出現(xiàn)了。

RoboChallenge 由原力靈機與 Hugging Face 聯(lián)合發(fā)起，被認為是全球首個大規(guī)模、多任務(wù)的真實機器人評測基準(zhǔn)平臺。

與傳統(tǒng)機器人競賽不同，RoboChallenge 的核心思想是建立一個類似大語言模型 LMSYS Arena 的評測體系：

統(tǒng)一機器人硬件（UR5、Franka、ALOHA 等）
統(tǒng)一任務(wù)
統(tǒng)一評測指標(biāo)
模型遠程提交
在真實機器人上執(zhí)行
公開排行榜
可復(fù)現(xiàn)結(jié)果

研究人員即使沒有機器人，也可以通過遠程調(diào)用真實機器人測試算法，這大幅降低了具身智能研究的門檻。

這解決了一個核心問題：不同模型可以橫向比較，模型好不好，直接上機跑。

更關(guān)鍵的是，RoboChallenge不僅給分數(shù)，還給失敗軌跡。這點極其重要，因為傳統(tǒng)的機器人競賽，通常只關(guān)注最終的成功率，但對于具身模型來說，知道怎么失敗的，更有價值。開發(fā)者可以通過分析失敗環(huán)節(jié)，來進行針對性的微調(diào)和優(yōu)化。

RoboChallenge 的目標(biāo)不是做一次比賽，而是建立一個長期的評測基礎(chǔ)設(shè)施，推動具身智能從實驗室智能，走向現(xiàn)實世界智能。

截至目前：RoboChallenge 已執(zhí)行超過4萬次真機測試，單日提交達到181次，就像是機器人的工業(yè)級測試流水線。

03.

具身智能的殘酷真相

RoboChallenge 在2025年下半年才推出，但已經(jīng)暴露出了當(dāng)前具身模型的很多問題和真相。

RoboChallenge 包括名為 Table30 桌面操作基準(zhǔn)測試集，其中有 30 個精心設(shè)計的日常情境任務(wù)（一般競賽或評測的任務(wù)僅有 3-5 個），例如整理物品、抓取物體、插線、擺放物品等。

從表面上看，這些任務(wù)似乎只是簡單的桌面操作，但從能力結(jié)構(gòu)來看，這類任務(wù)實際上覆蓋了具身智能最核心的能力組合：視覺理解、語言理解、任務(wù)規(guī)劃、精細操作、長時序決策、泛化能力等等。

換句話說，Table30 是在測試具身模型是否具備通用操作能力。

RoboChallenge 前不久發(fā)布了年度報告。結(jié)論概括來說：

榜首模型成功率約 50%。
模型在基礎(chǔ)抓取任務(wù)上的成功率比較高，但在精細操作和長任務(wù)鏈任務(wù)上，成功率明顯下降，比如“制作三明治”這個任務(wù)還沒有模型能完成。

這說明什么？我們距離“通用操作智能”，還差很遠。

有了客觀的評測體系，才能真正衡量模型的水平。

04.

具身智能不缺模型，缺排行榜

如果回顧人工智能過去十幾年的發(fā)展，會發(fā)現(xiàn)一個非常清晰的規(guī)律：幾乎所有重大技術(shù)突破，都伴隨著公開基準(zhǔn)測試與排行榜競爭。例如：

ImageNet 推動了深度學(xué)習(xí)視覺模型的發(fā)展
GLUE / SuperGLUE 推動了 NLP 模型發(fā)展
LMSYS Arena 推動了大語言模型競爭

公開 Benchmark 的作用不僅僅是比較模型性能，更重要的是，它能統(tǒng)一技術(shù)目標(biāo)、提供可復(fù)現(xiàn)的評測方法、加速技術(shù)路線收斂、吸引更多研究者參與。

具身智能領(lǐng)域長期沒有類似大語言模型領(lǐng)域的 benchmark，因此技術(shù)路線非常分散，很多團隊做的是 Demo，而不是可復(fù)現(xiàn)系統(tǒng)。

RoboChallenge 的意義，可能正是在這里。

很多人討論具身智能時，往往只關(guān)注模型本身，但實際上，具身智能是一個典型的系統(tǒng)工程，其進步也要依靠完整的基礎(chǔ)設(shè)施。

除了算力、算法、數(shù)據(jù)、硬件等環(huán)節(jié)，評測體系是連接模型與應(yīng)用的關(guān)鍵環(huán)節(jié)。如果沒有統(tǒng)一評測體系，就無法判斷模型是否真的進步，也無法形成行業(yè)共識。

從這個角度看，具身智能行業(yè)目前最缺的反而不是模型，而是一個公正的排行榜。

在今年的 AI 國際頂會 CVPR 上，還將舉行 RoboChallenge CVPR 2026 機器人比賽。到時，Table30 V2 的預(yù)覽版也將上線發(fā)布。

Table V2會從任務(wù)升級、評測升級到系統(tǒng)升級三個維度深度重構(gòu)，也會對具身模型進行了全方位的極限壓測。

如果你正在做具身智能、VLA、機器人控制，不要只做Demo，只做視頻，應(yīng)該去參與打榜比賽。

未來幾年，具身智能領(lǐng)域真正的技術(shù)突破，很可能會首先體現(xiàn)在 RoboChallenge 的排行榜上。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.