過去兩年,我們見過太多絲滑的機器人Demo,除了跳舞、打球等動作秀,還有端茶倒水、疊衣服、做飯等日常任務(wù)。
但這些視頻的共同特點是,發(fā)布完論文或視頻,就銷聲匿跡,你永遠不知道,它在現(xiàn)實中到底是什么樣。
這就是具身智能現(xiàn)在的核心矛盾:網(wǎng)上炒得火熱,但還停留在“視頻時代”。
最近,隨著宇樹科技IPO持續(xù)升溫,這個問題也越來越受到重視。特別是宇樹在招股書中提到,擬募資 42 億人民幣,其中半數(shù)資金砸向“智能機器人模型研發(fā)項目”,也就是俗稱的具身模型。
宇樹的成功,本質(zhì)上是硬件工程能力的勝利。成本控制、運動控制、量產(chǎn)能力,這些都已經(jīng)被驗證。
但行業(yè)已經(jīng)進入一個階段,市場真正想要的,是另一件事:誰能做出通用的具身模型?
![]()
01.
具身模型“關(guān)公戰(zhàn)秦瓊”
如果你熟悉 AI 相關(guān)的最新研究,就會發(fā)現(xiàn)每隔一段時間,就會有來自公司或高校的研究團隊,號稱在具身模型、VLA(視覺-語言-動作模型)上取得了突破。
它們在 Isaac Gym 或 ManiSkill 等仿真環(huán)境里,在一些任務(wù)上,展現(xiàn)出了驚人的成功率,達到 90% 甚至是 95%。模型在虛擬實驗室里動作優(yōu)雅、邏輯無瑕,好像具身智能的 ChatGPT 時刻已經(jīng)不遠了。
這些研究當(dāng)然很有價值,但它們有一個根本性問題:仿真環(huán)境與真實世界之間存在巨大的現(xiàn)實差距(Sim2Real Gap)。
在仿真環(huán)境中,物體材質(zhì)、摩擦系數(shù)、傳感器噪聲、物體擺放方式等,都是可控的,而現(xiàn)實世界是不可控的。
![]()
這也是為什么,很多模型在論文里 SOTA,一上真機就崩。這種現(xiàn)象在機器人領(lǐng)域非常普遍,也是具身智能遲遲無法大規(guī)模落地的重要原因之一。
Demo 視頻越來越多,論文越來越多,但大家很難真正比較不同模型之間的能力差異,就像是“關(guān)公戰(zhàn)秦瓊”。
問題不在模型數(shù)量,而在缺乏 Benchmark。
02.
RoboChallenge:具身智能的評測基礎(chǔ)
行業(yè)迫切需要一個類似 ImageNet、GLUE、Arena 這樣的真實世界統(tǒng)一評測標(biāo)準(zhǔn),讓不同模型可以在同一環(huán)境下進行橫向比較。
正是在這樣的背景下,RoboChallenge出現(xiàn)了。
RoboChallenge 由原力靈機與 Hugging Face 聯(lián)合發(fā)起,被認為是全球首個大規(guī)模、多任務(wù)的真實機器人評測基準(zhǔn)平臺。
![]()
與傳統(tǒng)機器人競賽不同,RoboChallenge 的核心思想是建立一個類似大語言模型 LMSYS Arena 的評測體系:
- 統(tǒng)一機器人硬件(UR5、Franka、ALOHA 等)
- 統(tǒng)一任務(wù)
- 統(tǒng)一評測指標(biāo)
- 模型遠程提交
- 在真實機器人上執(zhí)行
- 公開排行榜
- 可復(fù)現(xiàn)結(jié)果
研究人員即使沒有機器人,也可以通過遠程調(diào)用真實機器人測試算法,這大幅降低了具身智能研究的門檻。
這解決了一個核心問題:不同模型可以橫向比較,模型好不好,直接上機跑。
更關(guān)鍵的是,RoboChallenge不僅給分數(shù),還給失敗軌跡。這點極其重要,因為傳統(tǒng)的機器人競賽,通常只關(guān)注最終的成功率,但對于具身模型來說,知道怎么失敗的,更有價值。開發(fā)者可以通過分析失敗環(huán)節(jié),來進行針對性的微調(diào)和優(yōu)化。
RoboChallenge 的目標(biāo)不是做一次比賽,而是建立一個長期的評測基礎(chǔ)設(shè)施,推動具身智能從實驗室智能,走向現(xiàn)實世界智能。
截至目前:RoboChallenge 已執(zhí)行超過4萬次真機測試,單日提交達到181次,就像是機器人的工業(yè)級測試流水線。
03.
具身智能的殘酷真相
RoboChallenge 在2025年下半年才推出,但已經(jīng)暴露出了當(dāng)前具身模型的很多問題和真相。
RoboChallenge 包括名為 Table30 桌面操作基準(zhǔn)測試集,其中有 30 個精心設(shè)計的日常情境任務(wù)(一般競賽或評測的任務(wù)僅有 3-5 個),例如整理物品、抓取物體、插線、擺放物品等。
從表面上看,這些任務(wù)似乎只是簡單的桌面操作,但從能力結(jié)構(gòu)來看,這類任務(wù)實際上覆蓋了具身智能最核心的能力組合:視覺理解、語言理解、任務(wù)規(guī)劃、精細操作、長時序決策、泛化能力等等。
換句話說,Table30 是在測試具身模型是否具備通用操作能力。
![]()
RoboChallenge 前不久發(fā)布了年度報告。結(jié)論概括來說:
- 榜首模型成功率約 50%。
- 模型在基礎(chǔ)抓取任務(wù)上的成功率比較高,但在精細操作和長任務(wù)鏈任務(wù)上,成功率明顯下降,比如“制作三明治”這個任務(wù)還沒有模型能完成。
這說明什么?我們距離“通用操作智能”,還差很遠。
有了客觀的評測體系,才能真正衡量模型的水平。
04.
具身智能不缺模型,缺排行榜
如果回顧人工智能過去十幾年的發(fā)展,會發(fā)現(xiàn)一個非常清晰的規(guī)律:幾乎所有重大技術(shù)突破,都伴隨著公開基準(zhǔn)測試與排行榜競爭。例如:
- ImageNet 推動了深度學(xué)習(xí)視覺模型的發(fā)展
- GLUE / SuperGLUE 推動了 NLP 模型發(fā)展
- LMSYS Arena 推動了大語言模型競爭
公開 Benchmark 的作用不僅僅是比較模型性能,更重要的是,它能統(tǒng)一技術(shù)目標(biāo)、提供可復(fù)現(xiàn)的評測方法、加速技術(shù)路線收斂、吸引更多研究者參與。
具身智能領(lǐng)域長期沒有類似大語言模型領(lǐng)域的 benchmark,因此技術(shù)路線非常分散,很多團隊做的是 Demo,而不是可復(fù)現(xiàn)系統(tǒng)。
RoboChallenge 的意義,可能正是在這里。
很多人討論具身智能時,往往只關(guān)注模型本身,但實際上,具身智能是一個典型的系統(tǒng)工程,其進步也要依靠完整的基礎(chǔ)設(shè)施。
除了算力、算法、數(shù)據(jù)、硬件等環(huán)節(jié),評測體系是連接模型與應(yīng)用的關(guān)鍵環(huán)節(jié)。如果沒有統(tǒng)一評測體系,就無法判斷模型是否真的進步,也無法形成行業(yè)共識。
從這個角度看,具身智能行業(yè)目前最缺的反而不是模型,而是一個公正的排行榜。
在今年的 AI 國際頂會 CVPR 上,還將舉行 RoboChallenge CVPR 2026 機器人比賽。到時,Table30 V2 的預(yù)覽版也將上線發(fā)布。
![]()
Table V2會從任務(wù)升級、評測升級到系統(tǒng)升級三個維度深度重構(gòu),也會對具身模型進行了全方位的極限壓測。
如果你正在做具身智能、VLA、機器人控制,不要只做Demo,只做視頻,應(yīng)該去參與打榜比賽。
未來幾年,具身智能領(lǐng)域真正的技術(shù)突破,很可能會首先體現(xiàn)在 RoboChallenge 的排行榜上。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.