網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

拒絕透露姓名，卻拿了兩個(gè)世界第一：具身圈大佬們都在打聽它是誰(shuí)

2026-04-21 22:05:17　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

編輯｜楊文、陳陳

這幾天，世界模型賽道格外熱鬧。

李飛飛空間智能獨(dú)角獸 World Labs 高調(diào)推出「Spark 2.0」，阿里隨即上線世界模型「快樂(lè)生蠔」。

幾乎同一時(shí)間，Physical Intelligence 也發(fā)布新模型 π 0.7，并強(qiáng)調(diào)其對(duì)未見任務(wù)的初步組合式泛化能力與跨機(jī)器人平臺(tái)遷移特性。

這一系列動(dòng)作本身釋放了一個(gè)信號(hào)，行業(yè)競(jìng)爭(zhēng)的焦點(diǎn)，已經(jīng)從誰(shuí)會(huì)做單點(diǎn)動(dòng)作，轉(zhuǎn)向誰(shuí)更接近將「預(yù)測(cè)世界」和「驅(qū)動(dòng)行動(dòng)」統(tǒng)一在同一個(gè)模型里。

在這個(gè)節(jié)點(diǎn)上，一款名為MotuBrain 的神秘世界模型，悄無(wú)聲息地登上兩個(gè)國(guó)際 benchmark 的榜首，沒(méi)有任何公司署名。

如果只是單榜第一，這件事或許并不稀奇。

但問(wèn)題在于，它同時(shí)拿下的，是兩個(gè)幾乎代表行業(yè)「兩個(gè)極點(diǎn)」的榜單：一個(gè)是衡量世界模型「是否真正理解和預(yù)測(cè)現(xiàn)實(shí)世界」的 WorldArena；另一個(gè)則是衡量機(jī)器人任務(wù)執(zhí)行能力與泛化能力的 RoboTwin2.0。一個(gè)偏世界預(yù)測(cè)，一個(gè)偏任務(wù)執(zhí)行，加在一起，恰好對(duì)應(yīng)了行業(yè)當(dāng)下最想攻克的那個(gè)統(tǒng)一命題。

在 WorldArena 上，MotuBrain 以 63.77 的總體 EWM Score 位居第一，從結(jié)果來(lái)看，其表現(xiàn)超越了高德的ABot、極佳GigaWorld-1等模型，并在 Motion Quality、Flow Score、Motion Smoothness 等多個(gè)關(guān)鍵運(yùn)動(dòng)維度上全面領(lǐng)跑。

圖片來(lái)源：https://huggingface.co/spaces/WorldArena/WorldArena

而在 RoboTwin2.0 中，MotuBrain 在 Clean 和 Randomized 兩個(gè)場(chǎng)景下分別達(dá)到 95.8 和 96.1，同樣排名第一，是榜單上唯一一個(gè)在隨機(jī)環(huán)境下平均分超過(guò) 95 的模型，在大多數(shù)具體任務(wù)中也都取得了 100 或接近 100 的成績(jī)。相較于高德 ABot、螞蟻靈波 LingBot、JEPA-VLA、pi0.5等模型，MotuBrain 在 RoboTwin 基準(zhǔn)測(cè)試中具有統(tǒng)治級(jí)的表現(xiàn)。

正是這種「雙料第一」，才讓我們注意到這款來(lái)歷不明的模型。

簡(jiǎn)單搜索了一下，目前網(wǎng)上還未找到任何有關(guān) MotuBrain 的信息，不過(guò)我們發(fā)現(xiàn)了這個(gè)本月剛剛注冊(cè)的 X 賬號(hào)。

這讓我們想起前段時(shí)間被阿里認(rèn)領(lǐng)的「歡樂(lè)馬」（后續(xù)也開了 X 賬號(hào)）。

這個(gè)神秘世界模型，不會(huì)也是來(lái)自國(guó)內(nèi)哪家大廠吧？

為什么 MotuBrain 的成績(jī)值得關(guān)注？

WorldArena 和 RoboTwin 并不是兩個(gè)同類型的測(cè)試，它們測(cè)量的是兩種不同的能力。

WorldArena 考察的是world model 維度，包括模型能否理解運(yùn)動(dòng)規(guī)律，能否對(duì)時(shí)間序列中的物理變化做出準(zhǔn)確的推演和預(yù)測(cè)，以及是否具備對(duì)環(huán)境狀態(tài)變化的認(rèn)知能力。這是預(yù)測(cè)世界的能力。

RoboTwin 則偏向action model 或 policy model 的維度，比方說(shuō)模型能否在多任務(wù)、多環(huán)境下穩(wěn)定執(zhí)行動(dòng)作，能否泛化到?jīng)]見過(guò)的場(chǎng)景，是否具備持續(xù)完成復(fù)雜操作的能力，而這些是在世界中行動(dòng)的能力。

不妨做一個(gè)類比。人類司機(jī)之所以能在復(fù)雜路況下安全駕駛，靠的不只是肌肉記憶，更是對(duì)下一秒會(huì)發(fā)生什么的持續(xù)預(yù)判，比如前車會(huì)不會(huì)急剎？行人會(huì)不會(huì)突然橫穿？這種預(yù)測(cè)與行動(dòng)的同步進(jìn)行，是人類智能的底層邏輯。

現(xiàn)有的大多數(shù)機(jī)器人系統(tǒng)，恰恰缺的就是這一層。它們要么擅長(zhǎng)看懂世界卻不知道該怎么動(dòng)，要么能執(zhí)行固定動(dòng)作卻對(duì)環(huán)境變化毫無(wú)預(yù)判。兩張皮的結(jié)果，是機(jī)器人一旦離開訓(xùn)練場(chǎng)景就容易失控。

過(guò)去幾年，這兩個(gè)方向各自都有人在做，但往往是割裂的。做視頻生成和世界模型的團(tuán)隊(duì)，關(guān)注的是模型能否真實(shí)模擬物理世界；做機(jī)器人策略和 VLA 的團(tuán)隊(duì)，關(guān)注的是如何讓模型在具體任務(wù)上執(zhí)行可靠。真正嘗試把兩者統(tǒng)一起來(lái)的工作本就不多，成果穩(wěn)定的就更少。

MotuBrain 能夠在兩類 benchmark 上同時(shí)拿下第一，至少在 benchmark 層面上驗(yàn)證了一件事，把預(yù)測(cè)世界和驅(qū)動(dòng)行動(dòng)統(tǒng)一在同一個(gè)模型里，這條路是走得通的。

雙料第一，它究竟贏在哪里？

在 WorldArena 榜單上，MotuBrain 更值得關(guān)注的是它在這些維度上的領(lǐng)先。

Motion Quality 第一，這代表模型生成的動(dòng)作本身更加真實(shí)，而非停留在視覺上看起來(lái)像在動(dòng)的特效層面。
Flow Score 第一，說(shuō)明模型對(duì)連貫動(dòng)作和運(yùn)動(dòng)軌跡的理解更深，且能夠穩(wěn)定預(yù)測(cè)大幅度的動(dòng)作變化，可以把前一個(gè)時(shí)刻和后一個(gè)時(shí)刻絲滑地銜接起來(lái)，而不是逐幀拼湊。
Motion Smoothness 第一，代表生成出來(lái)的動(dòng)作更符合真實(shí)的物理規(guī)律，不會(huì)出現(xiàn)那種不自然的突然加速、抖動(dòng)或方向跳變。

這三個(gè)維度，都和運(yùn)動(dòng)直接相關(guān)。對(duì)于一個(gè)未來(lái)要服務(wù)機(jī)器人的世界模型來(lái)說(shuō)，這正是最關(guān)鍵的能力。

而在更偏任務(wù)執(zhí)行的 RoboTwin 上，這種優(yōu)勢(shì)被進(jìn)一步放大。面對(duì) 50 個(gè)任務(wù)、兩種不同環(huán)境設(shè)置，MotuBrain 的平均得分達(dá)到 96.0，顯著高于第二名的 92.3，領(lǐng)先幅度幾乎等同于第二名到第五名之間的差距。

更關(guān)鍵的是穩(wěn)定性。一半任務(wù)成功率達(dá)到 100%，九成任務(wù)超過(guò) 90%。這不僅意味著能做對(duì)，更意味著在多任務(wù)和隨機(jī)擾動(dòng)環(huán)境下依然能夠穩(wěn)定復(fù)現(xiàn)結(jié)果。

這些成績(jī)放在一起看，指向的是一種更接近通用機(jī)器人大腦的特征，既能保持動(dòng)作層面的連續(xù)與一致，又具備跨任務(wù)的泛化能力。

背后是誰(shuí)，走的是條什么路子？

目前關(guān)于 MotuBrain 的公開信息寥寥無(wú)幾，但從這次雙榜的成績(jī)結(jié)構(gòu)來(lái)看，它背后大概率不是傳統(tǒng)的視頻模型，也不是單純的 VLA 或 policy model。

過(guò)去一年，行業(yè)內(nèi)圍繞 world model 和 action model 的探索各自形成了幾條有代表性的路線。

有的強(qiáng)調(diào)統(tǒng)一世界模型，通過(guò)視覺、語(yǔ)言、視頻與動(dòng)作的聯(lián)合建模，融合視頻模型、VLA、世界模型等等路線，從而實(shí)現(xiàn)對(duì)真實(shí)環(huán)境的感知、規(guī)劃、預(yù)測(cè)、執(zhí)行和跨任務(wù)泛化，典型代表是去年 12 月發(fā)布的 Motus。

有的更偏向于「先想象、再行動(dòng)」的路徑，譬如今年一月底發(fā)布的 Lingbot-VA 就是先用視頻模型進(jìn)行未來(lái)視頻預(yù)測(cè)，再反向指導(dǎo)機(jī)器人動(dòng)作決策，兩者融合到一個(gè)模型里。

還有一些走的是「同步推演未來(lái)狀態(tài) + 生成動(dòng)作」，邊推演邊行動(dòng)的 World Action Model，比如英偉達(dá)二月初發(fā)布的 DreamZero。

從 MotuBrain 這次的表現(xiàn)來(lái)看，它可能走了一條偏 World Action Model的路線，兼具 world model 對(duì)環(huán)境和未來(lái)狀態(tài)的推演能力，以及 action model 在真實(shí)任務(wù)中的執(zhí)行能力。

這也就能解釋它為何能同時(shí)在「世界建模」和「動(dòng)作執(zhí)行」兩類 benchmark 上問(wèn)鼎。

結(jié)語(yǔ)

如果把一臺(tái)機(jī)器人拆開來(lái)看，可以理解為「手腳」是硬件，而「大腦」是軟件。

過(guò)去幾年，機(jī)器人硬件的迭代速度有目共睹，運(yùn)動(dòng)控制越來(lái)越精準(zhǔn)，傳感器越來(lái)越豐富，成本越來(lái)越低。但真正制約機(jī)器人大規(guī)模落地的，是那顆指揮任務(wù)的大腦。

現(xiàn)在的機(jī)器人，本質(zhì)上還是「為特定任務(wù)訓(xùn)練的專用系統(tǒng)」。換一個(gè)場(chǎng)景、換一個(gè)物體、換一條指令，就可能完全失效。這很大程度上歸因?yàn)橹悄軉?wèn)題。

具身智能的目標(biāo)，是構(gòu)建一個(gè)統(tǒng)一模型。既能理解物理世界、預(yù)測(cè)狀態(tài)變化，又能據(jù)此生成可靠動(dòng)作，從而適配任意任務(wù)與場(chǎng)景。

這個(gè)邏輯，資本已經(jīng)用真金白銀給出了判斷。

觀察最近這幾筆大額融資不難發(fā)現(xiàn)，資金正密集涌向那些打造機(jī)器人「大腦」的公司。表面投的是機(jī)器人，實(shí)際上搶占的，可能是下一代「機(jī)器人操作系統(tǒng)」或「通用物理大腦」的入口。

如此看來(lái)，以 Motubrain 為代表的 world+action 統(tǒng)一架構(gòu)，恰好站在了這場(chǎng)卡位戰(zhàn)的核心位置。

至于 Motubrain 背后究竟是哪支團(tuán)隊(duì)，接下來(lái)又會(huì)帶來(lái)什么，這個(gè)問(wèn)號(hào)大概不會(huì)懸太久。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.