![]()
編輯|楊文、陳陳
這幾天,世界模型賽道格外熱鬧。
李飛飛空間智能獨(dú)角獸 World Labs 高調(diào)推出「Spark 2.0」,阿里隨即上線世界模型「快樂(lè)生蠔」。
幾乎同一時(shí)間,Physical Intelligence 也發(fā)布新模型 π 0.7,并強(qiáng)調(diào)其對(duì)未見任務(wù)的初步組合式泛化能力與跨機(jī)器人平臺(tái)遷移特性。
這一系列動(dòng)作本身釋放了一個(gè)信號(hào),行業(yè)競(jìng)爭(zhēng)的焦點(diǎn),已經(jīng)從誰(shuí)會(huì)做單點(diǎn)動(dòng)作,轉(zhuǎn)向誰(shuí)更接近將「預(yù)測(cè)世界」和「驅(qū)動(dòng)行動(dòng)」統(tǒng)一在同一個(gè)模型里。
在這個(gè)節(jié)點(diǎn)上,一款名為MotuBrain 的神秘世界模型,悄無(wú)聲息地登上兩個(gè)國(guó)際 benchmark 的榜首,沒(méi)有任何公司署名。
如果只是單榜第一,這件事或許并不稀奇。
但問(wèn)題在于,它同時(shí)拿下的,是兩個(gè)幾乎代表行業(yè)「兩個(gè)極點(diǎn)」的榜單:一個(gè)是衡量世界模型「是否真正理解和預(yù)測(cè)現(xiàn)實(shí)世界」的 WorldArena;另一個(gè)則是衡量機(jī)器人任務(wù)執(zhí)行能力與泛化能力的 RoboTwin2.0。一個(gè)偏世界預(yù)測(cè),一個(gè)偏任務(wù)執(zhí)行,加在一起,恰好對(duì)應(yīng)了行業(yè)當(dāng)下最想攻克的那個(gè)統(tǒng)一命題。
在 WorldArena 上,MotuBrain 以 63.77 的總體 EWM Score 位居第一,從結(jié)果來(lái)看,其表現(xiàn)超越了高德的ABot、極佳GigaWorld-1等模型,并在 Motion Quality、Flow Score、Motion Smoothness 等多個(gè)關(guān)鍵運(yùn)動(dòng)維度上全面領(lǐng)跑。
![]()
圖片來(lái)源:https://huggingface.co/spaces/WorldArena/WorldArena
而在 RoboTwin2.0 中,MotuBrain 在 Clean 和 Randomized 兩個(gè)場(chǎng)景下分別達(dá)到 95.8 和 96.1,同樣排名第一,是榜單上唯一一個(gè)在隨機(jī)環(huán)境下平均分超過(guò) 95 的模型,在大多數(shù)具體任務(wù)中也都取得了 100 或接近 100 的成績(jī)。相較于高德 ABot、螞蟻靈波 LingBot、JEPA-VLA、pi0.5等模型,MotuBrain 在 RoboTwin 基準(zhǔn)測(cè)試中具有統(tǒng)治級(jí)的表現(xiàn)。
![]()
![]()
正是這種「雙料第一」,才讓我們注意到這款來(lái)歷不明的模型。
簡(jiǎn)單搜索了一下,目前網(wǎng)上還未找到任何有關(guān) MotuBrain 的信息,不過(guò)我們發(fā)現(xiàn)了這個(gè)本月剛剛注冊(cè)的 X 賬號(hào)。
![]()
這讓我們想起前段時(shí)間被阿里認(rèn)領(lǐng)的「歡樂(lè)馬」(后續(xù)也開了 X 賬號(hào))。
這個(gè)神秘世界模型,不會(huì)也是來(lái)自國(guó)內(nèi)哪家大廠吧?
為什么 MotuBrain 的成績(jī)值得關(guān)注?
WorldArena 和 RoboTwin 并不是兩個(gè)同類型的測(cè)試,它們測(cè)量的是兩種不同的能力。
WorldArena 考察的是world model 維度,包括模型能否理解運(yùn)動(dòng)規(guī)律,能否對(duì)時(shí)間序列中的物理變化做出準(zhǔn)確的推演和預(yù)測(cè),以及是否具備對(duì)環(huán)境狀態(tài)變化的認(rèn)知能力。這是預(yù)測(cè)世界的能力。
RoboTwin 則偏向action model 或 policy model 的維度,比方說(shuō)模型能否在多任務(wù)、多環(huán)境下穩(wěn)定執(zhí)行動(dòng)作,能否泛化到?jīng)]見過(guò)的場(chǎng)景,是否具備持續(xù)完成復(fù)雜操作的能力,而這些是在世界中行動(dòng)的能力。
不妨做一個(gè)類比。人類司機(jī)之所以能在復(fù)雜路況下安全駕駛,靠的不只是肌肉記憶,更是對(duì)下一秒會(huì)發(fā)生什么的持續(xù)預(yù)判,比如前車會(huì)不會(huì)急剎?行人會(huì)不會(huì)突然橫穿?這種預(yù)測(cè)與行動(dòng)的同步進(jìn)行,是人類智能的底層邏輯。
現(xiàn)有的大多數(shù)機(jī)器人系統(tǒng),恰恰缺的就是這一層。它們要么擅長(zhǎng)看懂世界卻不知道該怎么動(dòng),要么能執(zhí)行固定動(dòng)作卻對(duì)環(huán)境變化毫無(wú)預(yù)判。兩張皮的結(jié)果,是機(jī)器人一旦離開訓(xùn)練場(chǎng)景就容易失控。
過(guò)去幾年,這兩個(gè)方向各自都有人在做,但往往是割裂的。做視頻生成和世界模型的團(tuán)隊(duì),關(guān)注的是模型能否真實(shí)模擬物理世界;做機(jī)器人策略和 VLA 的團(tuán)隊(duì),關(guān)注的是如何讓模型在具體任務(wù)上執(zhí)行可靠。真正嘗試把兩者統(tǒng)一起來(lái)的工作本就不多,成果穩(wěn)定的就更少。
MotuBrain 能夠在兩類 benchmark 上同時(shí)拿下第一,至少在 benchmark 層面上驗(yàn)證了一件事,把預(yù)測(cè)世界和驅(qū)動(dòng)行動(dòng)統(tǒng)一在同一個(gè)模型里,這條路是走得通的。
雙料第一,它究竟贏在哪里?
在 WorldArena 榜單上,MotuBrain 更值得關(guān)注的是它在這些維度上的領(lǐng)先。
- Motion Quality 第一,這代表模型生成的動(dòng)作本身更加真實(shí),而非停留在視覺上看起來(lái)像在動(dòng)的特效層面。
- Flow Score 第一,說(shuō)明模型對(duì)連貫動(dòng)作和運(yùn)動(dòng)軌跡的理解更深,且能夠穩(wěn)定預(yù)測(cè)大幅度的動(dòng)作變化,可以把前一個(gè)時(shí)刻和后一個(gè)時(shí)刻絲滑地銜接起來(lái),而不是逐幀拼湊。
- Motion Smoothness 第一,代表生成出來(lái)的動(dòng)作更符合真實(shí)的物理規(guī)律,不會(huì)出現(xiàn)那種不自然的突然加速、抖動(dòng)或方向跳變。
這三個(gè)維度,都和運(yùn)動(dòng)直接相關(guān)。對(duì)于一個(gè)未來(lái)要服務(wù)機(jī)器人的世界模型來(lái)說(shuō),這正是最關(guān)鍵的能力。
而在更偏任務(wù)執(zhí)行的 RoboTwin 上,這種優(yōu)勢(shì)被進(jìn)一步放大。面對(duì) 50 個(gè)任務(wù)、兩種不同環(huán)境設(shè)置,MotuBrain 的平均得分達(dá)到 96.0,顯著高于第二名的 92.3,領(lǐng)先幅度幾乎等同于第二名到第五名之間的差距。
更關(guān)鍵的是穩(wěn)定性。一半任務(wù)成功率達(dá)到 100%,九成任務(wù)超過(guò) 90%。這不僅意味著能做對(duì),更意味著在多任務(wù)和隨機(jī)擾動(dòng)環(huán)境下依然能夠穩(wěn)定復(fù)現(xiàn)結(jié)果。
這些成績(jī)放在一起看,指向的是一種更接近通用機(jī)器人大腦的特征,既能保持動(dòng)作層面的連續(xù)與一致,又具備跨任務(wù)的泛化能力。
背后是誰(shuí),走的是條什么路子?
目前關(guān)于 MotuBrain 的公開信息寥寥無(wú)幾,但從這次雙榜的成績(jī)結(jié)構(gòu)來(lái)看,它背后大概率不是傳統(tǒng)的視頻模型,也不是單純的 VLA 或 policy model。
過(guò)去一年,行業(yè)內(nèi)圍繞 world model 和 action model 的探索各自形成了幾條有代表性的路線。
有的強(qiáng)調(diào)統(tǒng)一世界模型,通過(guò)視覺、語(yǔ)言、視頻與動(dòng)作的聯(lián)合建模,融合視頻模型、VLA、世界模型等等路線,從而實(shí)現(xiàn)對(duì)真實(shí)環(huán)境的感知、規(guī)劃、預(yù)測(cè)、執(zhí)行和跨任務(wù)泛化,典型代表是去年 12 月發(fā)布的 Motus。
有的更偏向于「先想象、再行動(dòng)」的路徑,譬如今年一月底發(fā)布的 Lingbot-VA 就是先用視頻模型進(jìn)行未來(lái)視頻預(yù)測(cè),再反向指導(dǎo)機(jī)器人動(dòng)作決策,兩者融合到一個(gè)模型里。
還有一些走的是「同步推演未來(lái)狀態(tài) + 生成動(dòng)作」,邊推演邊行動(dòng)的 World Action Model,比如英偉達(dá)二月初發(fā)布的 DreamZero。
從 MotuBrain 這次的表現(xiàn)來(lái)看,它可能走了一條偏 World Action Model的路線,兼具 world model 對(duì)環(huán)境和未來(lái)狀態(tài)的推演能力,以及 action model 在真實(shí)任務(wù)中的執(zhí)行能力。
這也就能解釋它為何能同時(shí)在「世界建模」和「動(dòng)作執(zhí)行」兩類 benchmark 上問(wèn)鼎。
結(jié)語(yǔ)
如果把一臺(tái)機(jī)器人拆開來(lái)看,可以理解為「手腳」是硬件,而「大腦」是軟件。
過(guò)去幾年,機(jī)器人硬件的迭代速度有目共睹,運(yùn)動(dòng)控制越來(lái)越精準(zhǔn),傳感器越來(lái)越豐富,成本越來(lái)越低。但真正制約機(jī)器人大規(guī)模落地的,是那顆指揮任務(wù)的大腦。
現(xiàn)在的機(jī)器人,本質(zhì)上還是「為特定任務(wù)訓(xùn)練的專用系統(tǒng)」。換一個(gè)場(chǎng)景、換一個(gè)物體、換一條指令,就可能完全失效。這很大程度上歸因?yàn)橹悄軉?wèn)題。
具身智能的目標(biāo),是構(gòu)建一個(gè)統(tǒng)一模型。既能理解物理世界、預(yù)測(cè)狀態(tài)變化,又能據(jù)此生成可靠動(dòng)作,從而適配任意任務(wù)與場(chǎng)景。
這個(gè)邏輯,資本已經(jīng)用真金白銀給出了判斷。
觀察最近這幾筆大額融資不難發(fā)現(xiàn),資金正密集涌向那些打造機(jī)器人「大腦」的公司。表面投的是機(jī)器人,實(shí)際上搶占的,可能是下一代「機(jī)器人操作系統(tǒng)」或「通用物理大腦」的入口。
如此看來(lái),以 Motubrain 為代表的 world+action 統(tǒng)一架構(gòu),恰好站在了這場(chǎng)卡位戰(zhàn)的核心位置。
至于 Motubrain 背后究竟是哪支團(tuán)隊(duì),接下來(lái)又會(huì)帶來(lái)什么,這個(gè)問(wèn)號(hào)大概不會(huì)懸太久。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.