橫掃19項榜單！大曉機(jī)器人開源全球首創(chuàng)空間智能底座

2026-03-07 11:02:10　來源: AI科技評論

廣東舉報

分享至

跨不同具身本體的通用基礎(chǔ)模型“ACE-Brain-0”，正式面向全行業(yè)開源。

近日，大曉機(jī)器人聯(lián)合上海交通大學(xué)、南洋理工大學(xué)、香港中文大學(xué)、香港大學(xué)等研究機(jī)構(gòu)共同推出以空間智能為底層框架、跨不同具身本體的通用基礎(chǔ)模型“ACE-Brain-0”，正式面向全行業(yè)開源。

ACE-Brain-0 首次打破汽車、機(jī)器人、無人機(jī)等不同本體壁壘，貫穿空間認(rèn)知、自動駕駛、低空感知、機(jī)器人交互，重新定義了物理世界智能的技術(shù)底層邏輯。其性能表現(xiàn)在涵蓋空間認(rèn)知、自動駕駛、低空感知、具身交互的24個核心 benchmark 中，有19個取得當(dāng)前模型中的 SOTA（排名第一）成績，全面大幅領(lǐng)先市場主流具身模型。ACE-Brain-0主要對標(biāo)GPT-4o、Gemini 2.5-Pro、Qwen2.5-VL-7B-Inst、RoboBrain2.0-7B、MiMo-Embodied-7B等16個知名模型，將19個Benchmark具身模型最強(qiáng)基線準(zhǔn)確率相對提升5%-97.8%。在衡量三維認(rèn)知的MindCube中，以82.1%的成績，較最好的開源模型（InternVL3-8B）提升了97.8%。

目前，上述模型已應(yīng)用于大曉機(jī)器人具身超級大腦模組A1，使搭載具身超級大腦A1的機(jī)器狗具備行業(yè)首創(chuàng)的端到端自主導(dǎo)航能力，并且基于VLA架構(gòu)實(shí)現(xiàn)云端智能交互，讓機(jī)器狗具備理解抽象指令、感知復(fù)雜環(huán)境、完成復(fù)雜任務(wù)的端到端閉環(huán)能力。

在城市人行道等復(fù)雜公共場景中，搭載 ACE-Brain 的機(jī)器狗展現(xiàn)出卓越的導(dǎo)航與VLA能力。以圖片場景為例，面對“估算行人和摩托車間距、判斷是否有足夠空間導(dǎo)航通過”的需求，ACE-Brain賦能機(jī)器狗精準(zhǔn)完成三大核心動作：

依托空間認(rèn)知能力，可精準(zhǔn)量化行人和摩托車間距約0.5米，為導(dǎo)航?jīng)Q策提供可靠依據(jù)；通過視覺語言理解，清晰解析自然語言指令，實(shí)現(xiàn)“看—懂—判”的連貫交互，無需額外定制化指令；在導(dǎo)航?jīng)Q策中，既能判斷空間足夠通過，又主動提出“謹(jǐn)慎前行”的安全建議，兼顧效率與公共安全，適配復(fù)雜公共場景的移動需求。

搭載ACE-Brain 的機(jī)器狗，可精準(zhǔn)識別前方車輛等障礙物，通過空間智能感知道路環(huán)境與目標(biāo)位置，預(yù)判通行風(fēng)險，主動判斷 “應(yīng)停下并安全繞行”，實(shí)現(xiàn)空間識別與目標(biāo)預(yù)測的高效協(xié)同，保障復(fù)雜路況下的移動安全。

這種能力讓機(jī)器狗在擁擠人行道、復(fù)雜路況等場景中，運(yùn)用強(qiáng)大的空間智能技術(shù)底座，通過3D 場景建模、幾何關(guān)系推理、空間定位等核心能力，既能精準(zhǔn)感知環(huán)境，又能通過自然語言交互理解任務(wù)，實(shí)現(xiàn)安全、高效的自主導(dǎo)航，為公共巡檢、應(yīng)急響應(yīng)等場景提供可靠支撐。

空間智能成為跨本體的“通用語言”

為了實(shí)現(xiàn)多任務(wù)，傳統(tǒng)的辦法是把所有任務(wù)數(shù)據(jù)混在一起，然后訓(xùn)練模型，盼望模型能夠自己悟出來；但是ACE-Brain的思路則更像教育學(xué)：先讓它建立“空間感”，學(xué)會理解世界中的前后左右、遠(yuǎn)近高低、視角變化和位置等空間幾何關(guān)系，然后再去學(xué)習(xí)不同任務(wù)中的具體技能。簡單來說，就是先學(xué)會“怎么看懂世界”，再學(xué)會“怎么完成相關(guān)的任務(wù)動作”。

大曉機(jī)器人團(tuán)隊突破性發(fā)現(xiàn)，無論是自動駕駛車輛、低空無人機(jī)還是機(jī)器人，盡管形態(tài)差異巨大，但它們都依賴三大核心空間能力：三維空間結(jié)構(gòu)建模、幾何關(guān)系推理、場景演化預(yù)測。

基于上述共性，大曉機(jī)器人首次提出以空間智能作為跨具身形態(tài)的 “通用語言”，成為連接不同物理域的統(tǒng)一認(rèn)知支架，為通用具身智能找到統(tǒng)一底座。

ACE-Brain-0架構(gòu)

為打造統(tǒng)一的空間智能認(rèn)知支架，ACE-Brain-0以空間信息為多模態(tài)自回歸架構(gòu)，實(shí)現(xiàn)了從單視角圖像到多視角視頻序列的認(rèn)知統(tǒng)一處理。

在輸入層，兼容單圖、多圖、視頻等多模態(tài)視覺數(shù)據(jù)，搭配自然語言指令作為任務(wù)條件，覆蓋所有具身場景的輸入需求；

在表征層，通過通用視覺編碼器提取領(lǐng)域無關(guān)的空間特征，經(jīng) MLP 投影器映射為語言模型可理解的視覺令牌，并按 “通用、空間、駕駛、航空、具身” 分類組織，確保空間信息的結(jié)構(gòu)化表達(dá)；

在推理層，由統(tǒng)一的LLM解碼器實(shí)現(xiàn)跨模態(tài)融合推理，將空間認(rèn)知轉(zhuǎn)化為可遷移的統(tǒng)一表示，使不同具身場景的知識能基于空間邏輯自由流動。

這一設(shè)計的核心優(yōu)勢在于，無需為特定場景定制專用模塊，僅通過空間智能的“通用表征”，就實(shí)現(xiàn)了跨域知識的自然遷移，徹底改變了“一個場景一套模型”的傳統(tǒng)具身研發(fā)模式。

打造全新范式，解決跨本體訓(xùn)練困境

傳統(tǒng)跨域訓(xùn)練面臨兩大困境，一是聯(lián)合訓(xùn)練易引發(fā)梯度干擾，導(dǎo)致各領(lǐng)域能力 “稀釋”；二是序貫訓(xùn)練則會出現(xiàn)災(zāi)難性遺忘，學(xué)了新技能丟了舊能力。大曉機(jī)器人首創(chuàng)Scaffold-Specialize-Reconcile（SSR）三階段訓(xùn)練范式，通過“先建共識、再練專長、后融知識”的路徑，完美解決了這一矛盾。

首先，Scaffold（框架構(gòu)建）筑牢通用空間基礎(chǔ)。ACE-Brain-0利用大規(guī)模空間智能數(shù)據(jù)集訓(xùn)練空間專家模型，建立域無關(guān)的三維認(rèn)知先驗。這一步就像為所有具身能力打造“通用地基”，讓后續(xù)領(lǐng)域訓(xùn)練都能基于統(tǒng)一的空間認(rèn)知框架展開，避免了各領(lǐng)域“從零開始學(xué)空間”的重復(fù)勞動。

第二步，Specialize（域?qū)＞珜W(xué)習(xí)）實(shí)現(xiàn)隔離優(yōu)化和強(qiáng)化專長。在空間框架上，ACE-Brain-0分別獨(dú)立訓(xùn)練自動駕駛專家、機(jī)器人專家等領(lǐng)域模型。每個領(lǐng)域?qū)＜夷Ｐ蛢H在自身專屬數(shù)據(jù)集上微調(diào)，避免不同本體數(shù)據(jù)帶來的梯度沖突，確保每個領(lǐng)域都能獲得充分的專業(yè)化能力。

最后一步，Reconcile（跨域知識調(diào)和）實(shí)現(xiàn)數(shù)據(jù)無關(guān)的參數(shù)級融合。ACE-Brain-0通過任務(wù)向量空間對齊技術(shù)，在無需原始訓(xùn)練數(shù)據(jù)的條件下，將各領(lǐng)域?qū)＜业膮?shù)進(jìn)行整合，從而同時很大程度減緩聯(lián)合訓(xùn)練中的優(yōu)化干擾和順序訓(xùn)練導(dǎo)致的災(zāi)難性遺忘。

四大能力首次統(tǒng)一，打造“一腦多形”樣本

ACE-Brain-0首次在單一模型框架中實(shí)現(xiàn)四大核心具身能力的統(tǒng)一：空間認(rèn)知、自動駕駛、低空感知、機(jī)器人交互。這一突破并非簡單的能力 “拼接”，而是基于空間智能的深度融合，其技術(shù)關(guān)鍵在于“共享認(rèn)知結(jié)構(gòu)”的構(gòu)建。

通過空間中心化建模，ACE-Brain-0讓不同具身場景的認(rèn)知邏輯實(shí)現(xiàn)統(tǒng)一。自動駕駛中的“車距判斷”與機(jī)器人交互中的“抓取距離估算”，共享同一套空間距離推理機(jī)制；交通場景的“多視圖融合”與機(jī)器人的“多視角物體識別”，則依托相同的跨視角空間對齊技術(shù)。

這種 “共享認(rèn)知結(jié)構(gòu)” 使得模型能在不同觀察視角、運(yùn)動尺度與任務(wù)語義之間自由切換，實(shí)現(xiàn)跨域理解與推理能力的自然遷移。

刷新19個榜單具身模型SOTA

ACE-Brain-0在涵蓋空間認(rèn)知、自動駕駛、低空感知、具身交互的 24 個核心 benchmark 中，對標(biāo)GPT-4o、Gemini 2.5-Pro、Qwen2.5-VL-7B-Inst、RoboBrain2.0-7B、MiMo-Embodied-7B等16個知名模型，取得了19 個當(dāng)前具身模型中的 SOTA（排名第一）成績，同時將19個Benchmark具身模型最強(qiáng)基線準(zhǔn)確率相對提升5%-97.8%，全面超越市場主流具身模型（如天工、北京智源、小米等）。

空間認(rèn)知領(lǐng)域：ACE-Brain-0參與了7項空間認(rèn)知領(lǐng)域的權(quán)威基準(zhǔn)評測，在具身智能模型陣營中斬獲5項 SOTA， VSI（視覺空間智能）、MMSI（多模態(tài)空間智能）、SITE（空間語言理解）、SAT（空間視角變換）、Mindcube（受限視角三維建模）代表了不同維度的核心空間能力。

其中VSI（視覺空間智能）綜合評估模型對空間布局、物體關(guān)系和尺度的理解與推理能力，ACE-Brain-0以63.3%的成績領(lǐng)跑具身模型，驗證了其空間認(rèn)知的通用性；SAT（空間視角變換）考察從不同視角重構(gòu)空間布局的能力，ACE-Brain-0以92.0% 的成績，相較當(dāng)前最好具身模型提升了16.9%，證明其在視角變換下的空間建模能力。

Mindcube（受限視角三維建模）評估有限視角下構(gòu)建三維心理空間的能力，ACE 82.1%的表現(xiàn)碾壓其他具身模型，較閉源模型 Gemini-2.5-Pro相對提升了42.5%，較最好的開源模型（InternVL3-8B）相對提升了97.8%，突破了遮擋和視角限制。

*代表基于上述模型復(fù)現(xiàn)/下劃線代表次優(yōu)表現(xiàn)/黑體代表最優(yōu)表現(xiàn)

自動駕駛領(lǐng)域：ACE-Brain-0在5個自動駕駛 benchmark 上均取得領(lǐng)先表現(xiàn)，分別是MME-RealWorld（真實(shí)駕駛場景理解）、MAPLM（地圖與道路結(jié)構(gòu)理解）、DriveAction（駕駛行為理解）、NuscenesQA（多視圖動態(tài)場景理解）、NuPlanQA（規(guī)劃與交通規(guī)則理解），尤其在真實(shí)駕駛場景理解（MME-RealWorld）和規(guī)劃推理能力（NuPlanQA）等關(guān)鍵能力上實(shí)現(xiàn)顯著提升。

其中MME-RealWorld（真實(shí)駕駛場景理解）主要評估模型在真實(shí)交通環(huán)境中的多模態(tài)駕駛場景理解能力。ACE-Brain-0以71.2%的成績，相比當(dāng)前最強(qiáng)具身大腦模型相對提升18%。

NuPlanQA（規(guī)劃與交通規(guī)則理解）重點(diǎn)考察模型在自動駕駛規(guī)劃任務(wù)中的交通信號理解與車輛狀態(tài)推理能力。ACE-Brain-0取得91.7%的成績，決策正確率超越所有具身模型基線，較Pelican-VL-7B模型相對提升近10%。

*代表基于上述模型復(fù)現(xiàn)/下劃線代表次優(yōu)表現(xiàn)/黑體代表最優(yōu)表現(xiàn)

低空感知領(lǐng)域：ACE-Brain-0在5個低空視覺benchmark上均取得顯著領(lǐng)先表現(xiàn)，包括UrbanVideo-Bench（城市級無人機(jī)場景理解）、AirCopBench（空中交通關(guān)系理解和多無人機(jī)視角協(xié)同理解）、AVI-Math（空中幾何推理與數(shù)值計算）、Airspatial-VQA（低空空間視覺問答）、HIRVQA（遙感視覺問答），尤其在城市級無人機(jī)場景理解（UrbanVideo-Bench）和空中交通關(guān)系推理（AirCopBench）等關(guān)鍵能力上實(shí)現(xiàn)大幅提升。

其中UrbanVideo-Bench（城市級無人機(jī)場景理解）主要評估模型在城市級無人機(jī)視頻中的大尺度場景理解與地標(biāo)識別能力。ACE-Brain-0以56.9%的成績，相比當(dāng)前最強(qiáng)具身大腦模型相對提升51.7%。

AirCopBench（空中交通關(guān)系理解和多無人機(jī)視角協(xié)同理解）主要考察模型在復(fù)雜城市道路拓?fù)湎碌目罩薪煌ūO(jiān)控與車輛關(guān)系推理能力。ACE-Brain-0以70.3%領(lǐng)跑具身模型，相比當(dāng)前最強(qiáng)具身大腦模型相對提升35.4%。

AVI-Math（空中幾何推理與數(shù)值計算）主要評估模型在無人機(jī)視角下進(jìn)行幾何計算與結(jié)構(gòu)化數(shù)值推理能力。ACE-Brain-0相比當(dāng)前最強(qiáng)具身大腦模型提升1.3個百分點(diǎn)，達(dá)35.0%。

*代表基于上述模型復(fù)現(xiàn)/下劃線代表次優(yōu)表現(xiàn)/黑體代表最優(yōu)表現(xiàn)

具身交互領(lǐng)域：ACE-Brain-0在4個具身benchmark上均表現(xiàn)出穩(wěn)定優(yōu)勢，包括RoboVQA（機(jī)器人操作理解）、EmbSpatial（具身空間理解）、EgoPlan-Bench2（具身任務(wù)規(guī)劃）、EB-Habitat（具身導(dǎo)航理解），尤其在機(jī)器人操作理解（RoboVQA）等關(guān)鍵能力上實(shí)現(xiàn)顯著突破。

RoboVQA（機(jī)器人操作理解）主要評估模型對機(jī)器人操作行為與物體交互過程的理解能力。ACE-Brain-0以64.6%的成績遠(yuǎn)超同類模型。

EmbSpatial（具身空間理解）主要評估模型在具身環(huán)境中的空間關(guān)系理解與環(huán)境結(jié)構(gòu)認(rèn)知能力。ACE-Brain-0成績達(dá)77.3%，相比當(dāng)前最強(qiáng)具身大腦模型提升1個百分點(diǎn)。

EgoPlan-Bench2（具身任務(wù)規(guī)劃）主要考察模型在第一視角復(fù)雜任務(wù)中的長時序任務(wù)規(guī)劃能力。ACE-Brain-0成績達(dá)55.3%，相比當(dāng)前最強(qiáng)具身大腦模型提升1.9個百分點(diǎn)。

EB-Habitat（具身導(dǎo)航理解）主要考察模型在仿真具身環(huán)境中的導(dǎo)航?jīng)Q策與完成完整任務(wù)的綜合能力。ACE-Brain-0成績達(dá)42.3%，相比當(dāng)前最強(qiáng)具身大腦模型提升2.3個百分點(diǎn)。

*代表基于上述模型復(fù)現(xiàn)/下劃線代表次優(yōu)表現(xiàn)/黑體代表最優(yōu)表現(xiàn)

共享空間智能成為具身智能新世界觀

一個模型，一套參數(shù)同時在這些任務(wù)上的卓越表現(xiàn)非常有意義。它說明“空間優(yōu)先”不是一句漂亮口號，而是會真實(shí)改變跨形態(tài)學(xué)習(xí)效果的設(shè)計原則。尤其是具身交互那條曲線更耐人尋味：為什么直接學(xué)會失敗，而先學(xué)空間再學(xué)會成功？直觀上看，因為當(dāng)智能體面對真實(shí)世界時，動作策略往往依賴于對環(huán)境結(jié)構(gòu)的正確理解。如果連空間關(guān)系都沒有穩(wěn)定學(xué)會，那么所謂“具身能力”就很容易變成表面模仿；反過來，如果先掌握了共享的空間骨架，再去學(xué)具體動作，就像先學(xué)會看地圖再學(xué)開車，很多問題會突然迎刃而解。

更重要的是，報告并沒有滿足于“實(shí)驗上可行”，還試圖回答：為什么空間真的適合做共同底座？在附錄理論部分，報告把這個想法形式化為一個“可恢復(fù)的空間scaffold”：模型的內(nèi)部表示中，應(yīng)該存在一個形態(tài)無關(guān)的共享幾何變量，它承載三維布局、相對位姿、深度和拓?fù)涞刃畔ⅰＨ绻?xùn)練后這個共享變量能夠被穩(wěn)定“解碼”出來，那么它就不再只是一個模糊特征，而會變成跨不同身體都能復(fù)用的空間核心。理論中進(jìn)一步指出，后續(xù)不同系統(tǒng)需要學(xué)習(xí)的，更多會是各自身體特有的感知、動力學(xué)和控制部分，而不是反復(fù)從零學(xué)習(xí)幾何世界。

這套理論把一個深奧問題講清楚了：為什么是“空間”，而不是別的？因為空間不是一個普通任務(wù)，它更像是所有物理智能共同依賴的坐標(biāo)系。無論是汽車在車道中判斷前后左右，無人機(jī)從鳥瞰視角推理道路關(guān)系，還是機(jī)器人在房間里判斷物體位置，它們都必須先擁有一種內(nèi)部“空間地圖”。ACE-Brain-0就是把這種“內(nèi)部地圖”從隱含假設(shè)提升成了方法設(shè)計的起點(diǎn)。

這一技術(shù)路徑的領(lǐng)先性，不僅在于解決了當(dāng)前具身 AI 的核心痛點(diǎn)，更在于為未來通用物理世界智能的研發(fā)提供了可復(fù)用的底層框架。ACE-Brain 真正讓人興奮的地方，不是某一個分?jǐn)?shù)超過了誰，而是它重新定義了“通用具身智能”應(yīng)該從哪里開始。過去我們常常把“通用”理解為一個模型會做很多任務(wù)；而 ACE-Brain 讓人看到另一種可能：真正的“通用”，或許不是任務(wù)列表越來越長，而是先找到這些任務(wù)背后的共享結(jié)構(gòu)。空間，就是它給出的答案。ACE-Brain提出了一種新的具身智能世界觀：不同身體不一定要從頭學(xué)起，它們可以先共享一個關(guān)于世界的空間理解，再在這個基礎(chǔ)上長出各自的能力。未來的具身智能體，無需再為單一形態(tài)定制模型，只需基于 ACE-Brain的空間智能底座，就能快速適配新的物理本體與應(yīng)用場景。從自動駕駛到低空經(jīng)濟(jì)，從工業(yè)機(jī)器人到家庭服務(wù)設(shè)備，展現(xiàn)出面向真實(shí)物理世界多場景的平臺潛力。

該技術(shù)成果已上傳：https://arxiv.org/abs/2603.03198

Project Page: https://ace-brain-team.github.io/ACE-Brain-0

Code: https://github.com/ACE-BRAIN-Team/ACE-Brain-0

Hugging Face: https://huggingface.co/ACE-Brain/ACE-Brain-0-8B

附注：

大曉機(jī)器人于2025年12月28日正式重磅推出具身超級大腦模組A1。憑借首創(chuàng)以端到端為核心的自主空間智能，依托模型的視覺理解和運(yùn)動規(guī)劃能力，搭載具身超級模組A1的機(jī)器人能實(shí)現(xiàn)動態(tài)環(huán)境下魯棒、安全、合理的路徑生成，真正實(shí)現(xiàn)“自主行動”。

大曉機(jī)器人團(tuán)隊基于純視覺感知與端到端的深厚技術(shù)積累，創(chuàng)新性地將高精度視覺感知能力遷移至具身智能場景，打造出行業(yè)領(lǐng)先的純視覺無圖端到端VLA模型，為具身智能超級大腦模組 A1 賦予了“看環(huán)境、想路徑、避障礙，換環(huán)境照樣行”的核心能力。

具身超級大腦模組A1具備擁有云端交互能力，依托云端模型平臺，能實(shí)時解析自然語言指令與圖像語義的意圖關(guān)系，像人一樣理解復(fù)雜的現(xiàn)實(shí)世界，生成可執(zhí)行的中間指令（如“前進(jìn)50厘米”“繞過障礙”“靠近目標(biāo)”），再由底層控制器精確執(zhí)行。這使得機(jī)器狗不僅能夠在復(fù)雜環(huán)境中完成自主巡檢、跟隨、避障等多樣任務(wù)，而且能根據(jù)自然語言指令精準(zhǔn)完成任務(wù)。

基于以上優(yōu)勢，具身超級大腦模組A1在安防、能源、交通、文旅等對設(shè)備可靠性要求極高的場景中，可實(shí)現(xiàn)長期穩(wěn)定工作，讓具身智能真正具備了走進(jìn)產(chǎn)業(yè)一線的實(shí)用價值。

未經(jīng)「AI科技評論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.