![]()
跨不同具身本體的通用基礎(chǔ)模型“ACE-Brain-0”,正式面向全行業(yè)開源。
近日,大曉機(jī)器人聯(lián)合上海交通大學(xué)、南洋理工大學(xué)、香港中文大學(xué)、香港大學(xué)等研究機(jī)構(gòu)共同推出以空間智能為底層框架、跨不同具身本體的通用基礎(chǔ)模型“ACE-Brain-0”,正式面向全行業(yè)開源。
ACE-Brain-0 首次打破汽車、機(jī)器人、無人機(jī)等不同本體壁壘,貫穿空間認(rèn)知、自動駕駛、低空感知、機(jī)器人交互,重新定義了物理世界智能的技術(shù)底層邏輯。其性能表現(xiàn)在涵蓋空間認(rèn)知、自動駕駛、低空感知、具身交互的24個核心 benchmark 中,有19個取得當(dāng)前模型中的 SOTA(排名第一) 成績,全面大幅領(lǐng)先市場主流具身模型。ACE-Brain-0主要對標(biāo)GPT-4o、Gemini 2.5-Pro、Qwen2.5-VL-7B-Inst、RoboBrain2.0-7B、MiMo-Embodied-7B等16個知名模型,將19個Benchmark具身模型最強(qiáng)基線準(zhǔn)確率相對提升5%-97.8%。在衡量三維認(rèn)知的MindCube中,以82.1%的成績,較最好的開源模型(InternVL3-8B)提升了97.8%。
目前,上述模型已應(yīng)用于大曉機(jī)器人具身超級大腦模組A1,使搭載具身超級大腦A1的機(jī)器狗具備行業(yè)首創(chuàng)的端到端自主導(dǎo)航能力,并且基于VLA架構(gòu)實(shí)現(xiàn)云端智能交互,讓機(jī)器狗具備理解抽象指令、感知復(fù)雜環(huán)境、完成復(fù)雜任務(wù)的端到端閉環(huán)能力。
在城市人行道等復(fù)雜公共場景中,搭載 ACE-Brain 的機(jī)器狗展現(xiàn)出卓越的導(dǎo)航與VLA能力。以圖片場景為例,面對“估算行人和摩托車間距、判斷是否有足夠空間導(dǎo)航通過”的需求,ACE-Brain賦能機(jī)器狗精準(zhǔn)完成三大核心動作:
依托空間認(rèn)知能力,可精準(zhǔn)量化行人和摩托車間距約0.5米,為導(dǎo)航?jīng)Q策提供可靠依據(jù);通過視覺語言理解,清晰解析自然語言指令,實(shí)現(xiàn)“看—懂—判”的連貫交互,無需額外定制化指令;在導(dǎo)航?jīng)Q策中,既能判斷空間足夠通過,又主動提出“謹(jǐn)慎前行”的安全建議,兼顧效率與公共安全,適配復(fù)雜公共場景的移動需求。
![]()
搭載ACE-Brain 的機(jī)器狗,可精準(zhǔn)識別前方車輛等障礙物,通過空間智能感知道路環(huán)境與目標(biāo)位置,預(yù)判通行風(fēng)險,主動判斷 “應(yīng)停下并安全繞行”,實(shí)現(xiàn)空間識別與目標(biāo)預(yù)測的高效協(xié)同,保障復(fù)雜路況下的移動安全。
![]()
這種能力讓機(jī)器狗在擁擠人行道、復(fù)雜路況等場景中,運(yùn)用強(qiáng)大的空間智能技術(shù)底座,通過3D 場景建模、幾何關(guān)系推理、空間定位等核心能力,既能精準(zhǔn)感知環(huán)境,又能通過自然語言交互理解任務(wù),實(shí)現(xiàn)安全、高效的自主導(dǎo)航,為公共巡檢、應(yīng)急響應(yīng)等場景提供可靠支撐。
01
空間智能成為跨本體的“通用語言”
為了實(shí)現(xiàn)多任務(wù),傳統(tǒng)的辦法是把所有任務(wù)數(shù)據(jù)混在一起,然后訓(xùn)練模型,盼望模型能夠自己悟出來;但是ACE-Brain的思路則更像教育學(xué):先讓它建立“空間感”,學(xué)會理解世界中的前后左右、遠(yuǎn)近高低、視角變化和位置等空間幾何關(guān)系,然后再去學(xué)習(xí)不同任務(wù)中的具體技能。簡單來說,就是先學(xué)會“怎么看懂世界”,再學(xué)會“怎么完成相關(guān)的任務(wù)動作”。
大曉機(jī)器人團(tuán)隊突破性發(fā)現(xiàn),無論是自動駕駛車輛、低空無人機(jī)還是機(jī)器人,盡管形態(tài)差異巨大,但它們都依賴三大核心空間能力:三維空間結(jié)構(gòu)建模、幾何關(guān)系推理、場景演化預(yù)測。
基于上述共性,大曉機(jī)器人首次提出以空間智能作為跨具身形態(tài)的 “通用語言”,成為連接不同物理域的統(tǒng)一認(rèn)知支架,為通用具身智能找到統(tǒng)一底座。
![]()
ACE-Brain-0架構(gòu)
為打造統(tǒng)一的空間智能認(rèn)知支架,ACE-Brain-0以空間信息為多模態(tài)自回歸架構(gòu),實(shí)現(xiàn)了從單視角圖像到多視角視頻序列的認(rèn)知統(tǒng)一處理。
在輸入層,兼容單圖、多圖、視頻等多模態(tài)視覺數(shù)據(jù),搭配自然語言指令作為任務(wù)條件,覆蓋所有具身場景的輸入需求;
在表征層,通過通用視覺編碼器提取領(lǐng)域無關(guān)的空間特征,經(jīng) MLP 投影器映射為語言模型可理解的視覺令牌,并按 “通用、空間、駕駛、航空、具身” 分類組織,確保空間信息的結(jié)構(gòu)化表達(dá);
在推理層,由統(tǒng)一的LLM解碼器實(shí)現(xiàn)跨模態(tài)融合推理,將空間認(rèn)知轉(zhuǎn)化為可遷移的統(tǒng)一表示,使不同具身場景的知識能基于空間邏輯自由流動。
這一設(shè)計的核心優(yōu)勢在于,無需為特定場景定制專用模塊,僅通過空間智能的“通用表征”,就實(shí)現(xiàn)了跨域知識的自然遷移,徹底改變了“一個場景一套模型”的傳統(tǒng)具身研發(fā)模式。
02
打造全新范式,解決跨本體訓(xùn)練困境
傳統(tǒng)跨域訓(xùn)練面臨兩大困境,一是聯(lián)合訓(xùn)練易引發(fā)梯度干擾,導(dǎo)致各領(lǐng)域能力 “稀釋”;二是序貫訓(xùn)練則會出現(xiàn)災(zāi)難性遺忘,學(xué)了新技能丟了舊能力。大曉機(jī)器人首創(chuàng)Scaffold-Specialize-Reconcile(SSR)三階段訓(xùn)練范式,通過“先建共識、再練專長、后融知識”的路徑,完美解決了這一矛盾。
首先,Scaffold(框架構(gòu)建)筑牢通用空間基礎(chǔ)。ACE-Brain-0利用大規(guī)模空間智能數(shù)據(jù)集訓(xùn)練空間專家模型,建立域無關(guān)的三維認(rèn)知先驗。這一步就像為所有具身能力打造“通用地基”,讓后續(xù)領(lǐng)域訓(xùn)練都能基于統(tǒng)一的空間認(rèn)知框架展開,避免了各領(lǐng)域“從零開始學(xué)空間”的重復(fù)勞動。
第二步,Specialize(域?qū)>珜W(xué)習(xí))實(shí)現(xiàn)隔離優(yōu)化和強(qiáng)化專長。在空間框架上,ACE-Brain-0分別獨(dú)立訓(xùn)練自動駕駛專家、機(jī)器人專家等領(lǐng)域模型。每個領(lǐng)域?qū)<夷P蛢H在自身專屬數(shù)據(jù)集上微調(diào),避免不同本體數(shù)據(jù)帶來的梯度沖突,確保每個領(lǐng)域都能獲得充分的專業(yè)化能力。
最后一步,Reconcile(跨域知識調(diào)和)實(shí)現(xiàn)數(shù)據(jù)無關(guān)的參數(shù)級融合。ACE-Brain-0通過任務(wù)向量空間對齊技術(shù),在無需原始訓(xùn)練數(shù)據(jù)的條件下,將各領(lǐng)域?qū)<业膮?shù)進(jìn)行整合,從而同時很大程度減緩聯(lián)合訓(xùn)練中的優(yōu)化干擾和順序訓(xùn)練導(dǎo)致的災(zāi)難性遺忘。
03
四大能力首次統(tǒng)一,打造“一腦多形”樣本
ACE-Brain-0首次在單一模型框架中實(shí)現(xiàn)四大核心具身能力的統(tǒng)一:空間認(rèn)知、自動駕駛、低空感知、機(jī)器人交互。這一突破并非簡單的能力 “拼接”,而是基于空間智能的深度融合,其技術(shù)關(guān)鍵在于“共享認(rèn)知結(jié)構(gòu)”的構(gòu)建。
![]()
通過空間中心化建模,ACE-Brain-0讓不同具身場景的認(rèn)知邏輯實(shí)現(xiàn)統(tǒng)一。自動駕駛中的“車距判斷”與機(jī)器人交互中的“抓取距離估算”,共享同一套空間距離推理機(jī)制;交通場景的“多視圖融合”與機(jī)器人的“多視角物體識別”,則依托相同的跨視角空間對齊技術(shù)。
這種 “共享認(rèn)知結(jié)構(gòu)” 使得模型能在不同觀察視角、運(yùn)動尺度與任務(wù)語義之間自由切換,實(shí)現(xiàn)跨域理解與推理能力的自然遷移。
04
刷新19個榜單具身模型SOTA
ACE-Brain-0在涵蓋空間認(rèn)知、自動駕駛、低空感知、具身交互的 24 個核心 benchmark 中,對標(biāo)GPT-4o、Gemini 2.5-Pro、Qwen2.5-VL-7B-Inst、RoboBrain2.0-7B、MiMo-Embodied-7B等16個知名模型,取得了19 個當(dāng)前具身模型中的 SOTA(排名第一) 成績,同時將19個Benchmark具身模型最強(qiáng)基線準(zhǔn)確率相對提升5%-97.8%,全面超越市場主流具身模型(如天工、北京智源、小米等)。
空間認(rèn)知領(lǐng)域:ACE-Brain-0參與了7項空間認(rèn)知領(lǐng)域的權(quán)威基準(zhǔn)評測,在具身智能模型陣營中斬獲5項 SOTA, VSI(視覺空間智能)、MMSI(多模態(tài)空間智能)、SITE(空間語言理解)、SAT(空間視角變換)、Mindcube(受限視角三維建模)代表了不同維度的核心空間能力。
其中VSI(視覺空間智能)綜合評估模型對空間布局、物體關(guān)系和尺度的理解與推理能力,ACE-Brain-0以63.3%的成績領(lǐng)跑具身模型,驗證了其空間認(rèn)知的通用性;SAT(空間視角變換)考察從不同視角重構(gòu)空間布局的能力,ACE-Brain-0以92.0% 的成績,相較當(dāng)前最好具身模型提升了16.9%,證明其在視角變換下的空間建模能力。
Mindcube(受限視角三維建模)評估有限視角下構(gòu)建三維心理空間的能力,ACE 82.1%的表現(xiàn)碾壓其他具身模型,較閉源模型 Gemini-2.5-Pro相對提升了42.5%,較最好的開源模型(InternVL3-8B)相對提升了97.8%,突破了遮擋和視角限制。
![]()
*代表基于上述模型復(fù)現(xiàn)/下劃線代表次優(yōu)表現(xiàn)/黑體代表最優(yōu)表現(xiàn)
自動駕駛領(lǐng)域:ACE-Brain-0在5個自動駕駛 benchmark 上均取得領(lǐng)先表現(xiàn),分別是MME-RealWorld(真實(shí)駕駛場景理解)、MAPLM(地圖與道路結(jié)構(gòu)理解)、DriveAction(駕駛行為理解)、NuscenesQA(多視圖動態(tài)場景理解)、NuPlanQA(規(guī)劃與交通規(guī)則理解),尤其在真實(shí)駕駛場景理解(MME-RealWorld)和規(guī)劃推理能力(NuPlanQA) 等關(guān)鍵能力上實(shí)現(xiàn)顯著提升。
其中MME-RealWorld(真實(shí)駕駛場景理解)主要評估模型在真實(shí)交通環(huán)境中的 多模態(tài)駕駛場景理解能力。ACE-Brain-0以71.2%的成績,相比當(dāng)前最強(qiáng)具身大腦模型相對提升18%。
NuPlanQA(規(guī)劃與交通規(guī)則理解)重點(diǎn)考察模型在自動駕駛規(guī)劃任務(wù)中的 交通信號理解與車輛狀態(tài)推理能力。ACE-Brain-0取得91.7%的成績,決策正確率超越所有具身模型基線,較Pelican-VL-7B模型相對提升近10%。
![]()
*代表基于上述模型復(fù)現(xiàn)/下劃線代表次優(yōu)表現(xiàn)/黑體代表最優(yōu)表現(xiàn)
低空感知領(lǐng)域:ACE-Brain-0在5個低空視覺benchmark上均取得顯著領(lǐng)先表現(xiàn),包括UrbanVideo-Bench(城市級無人機(jī)場景理解)、AirCopBench(空中交通關(guān)系理解和多無人機(jī)視角協(xié)同理解)、AVI-Math(空中幾何推理與數(shù)值計算)、Airspatial-VQA(低空空間視覺問答)、HIRVQA(遙感視覺問答),尤其在城市級無人機(jī)場景理解(UrbanVideo-Bench)和空中交通關(guān)系推理(AirCopBench) 等關(guān)鍵能力上實(shí)現(xiàn)大幅提升。
其中UrbanVideo-Bench(城市級無人機(jī)場景理解)主要評估模型在城市級無人機(jī)視頻中的大尺度場景理解與地標(biāo)識別能力。ACE-Brain-0以56.9%的成績,相比當(dāng)前最強(qiáng)具身大腦模型相對提升51.7%。
AirCopBench(空中交通關(guān)系理解和多無人機(jī)視角協(xié)同理解)主要考察模型在復(fù)雜城市道路拓?fù)湎碌目罩薪煌ūO(jiān)控與車輛關(guān)系推理能力。ACE-Brain-0以70.3%領(lǐng)跑具身模型,相比當(dāng)前最強(qiáng)具身大腦模型相對提升35.4%。
AVI-Math(空中幾何推理與數(shù)值計算)主要評估模型在無人機(jī)視角下進(jìn)行 幾何計算與結(jié)構(gòu)化數(shù)值推理能力。ACE-Brain-0相比當(dāng)前最強(qiáng)具身大腦模型提升1.3個百分點(diǎn),達(dá)35.0%。
![]()
*代表基于上述模型復(fù)現(xiàn)/下劃線代表次優(yōu)表現(xiàn)/黑體代表最優(yōu)表現(xiàn)
具身交互領(lǐng)域:ACE-Brain-0在4個具身benchmark上均表現(xiàn)出穩(wěn)定優(yōu)勢,包括RoboVQA(機(jī)器人操作理解)、EmbSpatial(具身空間理解)、EgoPlan-Bench2(具身任務(wù)規(guī)劃)、EB-Habitat(具身導(dǎo)航理解),尤其在機(jī)器人操作理解(RoboVQA)等關(guān)鍵能力上實(shí)現(xiàn)顯著突破。
RoboVQA(機(jī)器人操作理解)主要評估模型對機(jī)器人操作行為與物體交互過程的理解能力。ACE-Brain-0以64.6%的成績遠(yuǎn)超同類模型。
EmbSpatial(具身空間理解)主要評估模型在具身環(huán)境中的 空間關(guān)系理解與環(huán)境結(jié)構(gòu)認(rèn)知能力。ACE-Brain-0成績達(dá)77.3%,相比當(dāng)前最強(qiáng)具身大腦模型提升1個百分點(diǎn)。
EgoPlan-Bench2(具身任務(wù)規(guī)劃)主要考察模型在第一視角復(fù)雜任務(wù)中的長時序任務(wù)規(guī)劃能力。ACE-Brain-0成績達(dá)55.3%,相比當(dāng)前最強(qiáng)具身大腦模型 提升1.9個百分點(diǎn)。
EB-Habitat(具身導(dǎo)航理解)主要考察模型在仿真具身環(huán)境中的導(dǎo)航?jīng)Q策與完成完整任務(wù)的綜合能力。ACE-Brain-0成績達(dá)42.3%,相比當(dāng)前最強(qiáng)具身大腦模型提升2.3個百分點(diǎn)。
![]()
*代表基于上述模型復(fù)現(xiàn)/下劃線代表次優(yōu)表現(xiàn)/黑體代表最優(yōu)表現(xiàn)
05
共享空間智能成為具身智能新世界觀
一個模型,一套參數(shù)同時在這些任務(wù)上的卓越表現(xiàn)非常有意義。它說明“空間優(yōu)先”不是一句漂亮口號,而是會真實(shí)改變跨形態(tài)學(xué)習(xí)效果的設(shè)計原則。尤其是具身交互那條曲線更耐人尋味:為什么直接學(xué)會失敗,而先學(xué)空間再學(xué)會成功?直觀上看,因為當(dāng)智能體面對真實(shí)世界時,動作策略往往依賴于對環(huán)境結(jié)構(gòu)的正確理解。如果連空間關(guān)系都沒有穩(wěn)定學(xué)會,那么所謂“具身能力”就很容易變成表面模仿;反過來,如果先掌握了共享的空間骨架,再去學(xué)具體動作,就像先學(xué)會看地圖再學(xué)開車,很多問題會突然迎刃而解。
更重要的是,報告并沒有滿足于“實(shí)驗上可行”,還試圖回答:為什么空間真的適合做共同底座? 在附錄理論部分,報告把這個想法形式化為一個“可恢復(fù)的空間scaffold”:模型的內(nèi)部表示中,應(yīng)該存在一個形態(tài)無關(guān)的共享幾何變量,它承載三維布局、相對位姿、深度和拓?fù)涞刃畔ⅰH绻?xùn)練后這個共享變量能夠被穩(wěn)定“解碼”出來,那么它就不再只是一個模糊特征,而會變成跨不同身體都能復(fù)用的空間核心。理論中進(jìn)一步指出,后續(xù)不同系統(tǒng)需要學(xué)習(xí)的,更多會是各自身體特有的感知、動力學(xué)和控制部分,而不是反復(fù)從零學(xué)習(xí)幾何世界。
這套理論把一個深奧問題講清楚了:為什么是“空間”,而不是別的? 因為空間不是一個普通任務(wù),它更像是所有物理智能共同依賴的坐標(biāo)系。無論是汽車在車道中判斷前后左右,無人機(jī)從鳥瞰視角推理道路關(guān)系,還是機(jī)器人在房間里判斷物體位置,它們都必須先擁有一種內(nèi)部“空間地圖”。ACE-Brain-0就是把這種“內(nèi)部地圖”從隱含假設(shè)提升成了方法設(shè)計的起點(diǎn)。
這一技術(shù)路徑的領(lǐng)先性,不僅在于解決了當(dāng)前具身 AI 的核心痛點(diǎn),更在于為未來通用物理世界智能的研發(fā)提供了可復(fù)用的底層框架。ACE-Brain 真正讓人興奮的地方,不是某一個分?jǐn)?shù)超過了誰,而是它重新定義了“通用具身智能”應(yīng)該從哪里開始。過去我們常常把“通用”理解為一個模型會做很多任務(wù);而 ACE-Brain 讓人看到另一種可能:真正的“通用”,或許不是任務(wù)列表越來越長,而是先找到這些任務(wù)背后的共享結(jié)構(gòu)。空間,就是它給出的答案。ACE-Brain提出了一種新的具身智能世界觀:不同身體不一定要從頭學(xué)起,它們可以先共享一個關(guān)于世界的空間理解,再在這個基礎(chǔ)上長出各自的能力。未來的具身智能體,無需再為單一形態(tài)定制模型,只需基于 ACE-Brain的空間智能底座,就能快速適配新的物理本體與應(yīng)用場景。從自動駕駛到低空經(jīng)濟(jì),從工業(yè)機(jī)器人到家庭服務(wù)設(shè)備,展現(xiàn)出面向真實(shí)物理世界多場景的平臺潛力。
該技術(shù)成果已上傳:https://arxiv.org/abs/2603.03198
Project Page: https://ace-brain-team.github.io/ACE-Brain-0
Code: https://github.com/ACE-BRAIN-Team/ACE-Brain-0
Hugging Face: https://huggingface.co/ACE-Brain/ACE-Brain-0-8B
附注:
大曉機(jī)器人于2025年12月28日正式重磅推出具身超級大腦模組A1。憑借首創(chuàng)以端到端為核心的自主空間智能,依托模型的視覺理解和運(yùn)動規(guī)劃能力,搭載具身超級模組A1的機(jī)器人能實(shí)現(xiàn)動態(tài)環(huán)境下魯棒、安全、合理的路徑生成,真正實(shí)現(xiàn)“自主行動”。
大曉機(jī)器人團(tuán)隊基于純視覺感知與端到端的深厚技術(shù)積累,創(chuàng)新性地將高精度視覺感知能力遷移至具身智能場景,打造出行業(yè)領(lǐng)先的純視覺無圖端到端VLA模型,為具身智能超級大腦模組 A1 賦予了“看環(huán)境、想路徑、避障礙,換環(huán)境照樣行”的核心能力。
具身超級大腦模組A1具備擁有云端交互能力,依托云端模型平臺,能實(shí)時解析自然語言指令與圖像語義的意圖關(guān)系,像人一樣理解復(fù)雜的現(xiàn)實(shí)世界,生成可執(zhí)行的中間指令(如“前進(jìn)50厘米”“繞過障礙”“靠近目標(biāo)”),再由底層控制器精確執(zhí)行。這使得機(jī)器狗不僅能夠在復(fù)雜環(huán)境中完成自主巡檢、跟隨、避障等多樣任務(wù),而且能根據(jù)自然語言指令精準(zhǔn)完成任務(wù)。
基于以上優(yōu)勢,具身超級大腦模組A1在安防、能源、交通、文旅等對設(shè)備可靠性要求極高的場景中,可實(shí)現(xiàn)長期穩(wěn)定工作,讓具身智能真正具備了走進(jìn)產(chǎn)業(yè)一線的實(shí)用價值。
未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.