近日,阿里巴巴集團旗下高德正式發(fā)布具身操作基座模型ABot-M0與具身導航基座模型ABot-N0,補齊了具身機器人規(guī)模化落地的兩塊核心能力——操作的通用性和導航的長程性,并刷新了全球多項權(quán)威評測紀錄,高德也成為全球首個在具身導航與具身操作上同步達到SOTA(目前最好、最先進的模型)的廠商。
ABot-M0:全球首個統(tǒng)一架構(gòu)的機器人基礎(chǔ)模型,讓機器人擁有"通用大腦"
長期以來,機器人技術(shù)的規(guī)模化應(yīng)用面臨諸多挑戰(zhàn),其中關(guān)鍵之一在于數(shù)據(jù)的割裂、動作表示的不統(tǒng)一以及空間理解能力的不足。不同廠商、不同形態(tài)的機器人往往使用各自獨立的數(shù)據(jù)體系,導致模型難以跨平臺復用,訓練效率受限,部署成本高。
高德推出的 ABot-M0 作為一款通用的具身操作基礎(chǔ)模型,從“數(shù)據(jù)統(tǒng)一—算法革新—空間感知”三個方面進行了系統(tǒng)性重構(gòu),致力于提升模型在多樣化機器人形態(tài)和任務(wù)場景下的泛化能力。
![]()
ABot-M0模型架構(gòu)圖
ABot-M0 基于全球開源資源,整合超過 600 萬條真實操作軌跡,構(gòu)建了目前規(guī)模最大的通用機器人數(shù)據(jù)集。通過統(tǒng)一動作表示、坐標系與控制頻率,并采用增量式動作建模,實現(xiàn)了跨平臺數(shù)據(jù)融合,支撐了完全基于公開數(shù)據(jù)的預訓練。
算法革新上,ABot-M0 提出了全球首個動作流形學習:有效的機器人動作受限于物理規(guī)律、任務(wù)目標與環(huán)境約束,集中分布在低維結(jié)構(gòu)化的流形上。設(shè)計了 AML(Action Manifold Learning)算法,使模型能夠直接預測結(jié)構(gòu)合理、物理可行的動作序列,提升策略的穩(wěn)定性與解碼效率。
為增強空間感知,ABot-M0 引入 3D 感知模塊,增強模型對“前后、遠近、遮擋”等空間語義的理解,在復雜環(huán)境中實現(xiàn)更精準的操作決策。
在 Libero、Libero-Plus、RoboCasa 基準測試中,該模型在包含復雜任務(wù)組合與動態(tài)場景擾動的設(shè)定下,平均任務(wù)成功率均達到 SOTA。其中,Libero-Plus 基準上達到了 80.5%,較業(yè)界先進方案pi0提升近30%,展現(xiàn)了其在高擾動高難度具身操作任務(wù)中的領(lǐng)先性能。
![]()
ABot-M0在Libero-Plus的評測
通過系統(tǒng)的工程設(shè)計與算法改進,ABot-M0 探索了一條通向通用具身智能的技術(shù)路徑,也為未來開放、共享的機器人生態(tài)提供了可復現(xiàn)、可擴展的基礎(chǔ)支持。
ABot-N0:全球首個五大導航任務(wù)統(tǒng)一的全棧導航基座模型
導航是機器人進入物理開放世界的核心基礎(chǔ)能力,機器人需要在動態(tài)且存在干擾的環(huán)境里展現(xiàn)出通用的行動能力,如跨場景送物或跟隨服務(wù),這同時也是具身智能演進的終極命題。
然而,當前的具身導航研究普遍深陷“碎片化”:主流方法往往針對特定任務(wù)構(gòu)建孤立的專用架構(gòu),這不僅限制了模型的跨任務(wù)泛化能力,更阻礙了智能體從海量異構(gòu)數(shù)據(jù)中提取統(tǒng)一物理先驗的可能性。
這也是當前機器人常陷于“環(huán)境看不懂、動作做不準”的核心原因,復雜指令(如“去門口幫我看看快遞”)更是難以執(zhí)行。
高德推出的具身導航基座模型ABot-N0,以“全任務(wù)一統(tǒng)”為核心目標,并實現(xiàn)全球首次在單一模型中完整集成Point-Goal(點位導航)、Object-Goal(目標導航)、Instruction-Following(指令跟隨)、POI-Goal(興趣點導航)與Person-Following(人物跟隨)五大導航任務(wù),有效突破了傳統(tǒng)架構(gòu)中任務(wù)割裂的瓶頸。
比如,當用戶對搭載ABot-N0的具身機器人說:“帶我去奶茶店買一杯奶茶,再幫我占個座。”時系統(tǒng)會自動分解為具體的導航任務(wù):首先執(zhí)行Point-Goal,根據(jù)地圖記憶接近奶茶店區(qū)域;之后切換至POI-Goal,精準鎖定店鋪入口并靠近;隨后觸發(fā)Instruction-Following,進入店鋪并導航至柜臺;最后執(zhí)行Object-Goal,在店內(nèi)尋找空沙發(fā)并停靠。
相較于只能支持部分任務(wù)的具身導航模型,高德ABot-N0所實現(xiàn)的五大導航任務(wù)給長程復雜任務(wù)的執(zhí)行提供了可行的解決方案。這一能力背后,是高德在架構(gòu)設(shè)計、數(shù)據(jù)引擎和系統(tǒng)框架上的關(guān)鍵革新。
![]()
ABot-N0的數(shù)據(jù)、性能、任務(wù)概覽
在模型架構(gòu)上,ABot-N0采用層次化的“大腦?動作”設(shè)計哲學:由“認知大腦”理解指令并做推理,由基于流匹配(Flow Matching)的“動作專家”生成精確且多峰分布的連續(xù)軌跡 。訓練上,先讓模型做認知訓練熱身,再用部分認知數(shù)據(jù)和海量導航動作進行聯(lián)合監(jiān)督微調(diào),最后用強化學習把導航?jīng)Q策對齊到人類偏好的行為價值,最終打造出真實環(huán)境中更通用的VLA基座模型。
在數(shù)據(jù)側(cè),依托高德長期沉淀的場景資產(chǎn)和專家示例,高德構(gòu)建了業(yè)內(nèi)最大規(guī)模的具身導航數(shù)據(jù)引擎,涵蓋約 8000 個高保真 3D 場景等海量時空數(shù)據(jù)與近1700萬條專家示例,從而增強模型在真實環(huán)境中的泛化能力與魯棒性。
基于ABot-N0的系統(tǒng)性創(chuàng)新,其在CityWalker、SocNav、R2R-CE/RxR-CE、HM3D-OVON、BridgeNav、EVT-Bench七大權(quán)威基準測試中全面刷新了世界紀錄。其中在SocNav閉環(huán)仿真中,成功率(SR)飆升40.5%,在HM3D-OVON評測中成功率(SR)提升8.8%,均顯著強于之前的SOTA模型。
![]()
Point-Goal任務(wù):在CityWalker及SocNav上分別進行開環(huán)和閉環(huán)評測
此外,為了解決機器人在執(zhí)行長程復雜任務(wù)時的任務(wù)拆解與容錯問題,高德提出了可落地的Agentic Navigation System具身導航系統(tǒng)框架,行成從“讀懂指令”到“長程復雜任務(wù)執(zhí)行”的閉環(huán)能力架構(gòu),支持機器人在執(zhí)行過程中持續(xù)感知、記憶、決策與糾錯。系統(tǒng)已成功部署于真實四足機器人平臺,并在邊緣側(cè)實現(xiàn)了高效推理與閉環(huán)控制,驗證了其在動態(tài)現(xiàn)實環(huán)境中的泛化性能與工業(yè)級穩(wěn)定性。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.