![]()
![]()
兩大模型拿下10項SOTA,性能超越Pi0近30%。
作者 |程茜
編輯 |漠影
機器人前瞻2月12日報道,近日,阿里巴巴旗下高德正式發布首個具身智能成果ABot系列具身基座模型。
該系列模型包含具身操作基座模型ABot-M0與具身導航基座模型ABot-N0,根據其技術報告,這兩大模型刷新了全球十項權威評測紀錄,在具身導航與具身操作上均達到SOTA。
![]()
▲ABot-M0在Libero-Plus上的評測結果(上)、ABot-N0在Point-Goal上的評測結果(下)
其中,ABot-M0要解決的難題是機器人操作通用性,提升模型在多樣化機器人形態和任務場景下的泛化能力;ABot-N0要提升機器人在動態、多干擾環境中的通用行動能力。
根據技術報告,搭載ABot-N0的機器狗可以完成“帶我們去最近的公園放松一下”的復雜任務。該模型會首先解讀用戶的意圖,并查詢地形記憶庫以獲取目標坐標,隨后分解為一系列中間子目標最終成功引導機器人到達最終目的地。
![]()
此外,為解決機器人在執行長程復雜任務時的任務拆解與容錯問題,高德還提出了Agentic Navigation System具身導航系統框架,支持機器人在執行過程中持續感知、記憶、決策與糾錯。該系統已部署于真實四足機器人平臺。
今年1月,新浪科技曾援引知情人士報道,高德內部已組建具身業務部,并在全球范圍內招攬具身智能產品專家及算法工程師。高德計劃將世界模型作為底層大腦,探索包括人形機器人、機器狗在內的多元化產品形態,實現從數字導航到實體行動的跨越。
ABot-M0項目主頁:
https://amap-cvlab.github.io/ABot-Manipulation/
ABot-N0項目主頁:
https://amap-cvlab.github.io/ABot-Navigation/ABot-N0/
01.
ABot-M0:主攻機器人泛化性難題
三大主流基準測試拿下SOTA
機器人技術的規模化應用關鍵挑戰之一在于數據的割裂、動作表示的不統一以及空間理解能力的不足。不同廠商、不同形態的機器人往往使用各自獨立的數據體系,導致模型難以跨平臺復用,訓練效率受限,部署成本高。
高德推出的通用具身操作基礎模型ABot-M0,從數據統一、算法革新、空間感知三個方面進行了系統性重構,可提升模型在多樣化機器人形態和任務場景下的泛化能力。
![]()
在具身智能領域主流三大開源仿真評測基準Libero、Libero-Plus、RoboCasa測試中,該模型在包含復雜任務組合與動態場景擾動的設定下,平均任務成功率均達到SOTA。
在考驗VLA模型在真實擾動下的脆弱性的Libero-Plus基準上,該模型得分達到80.5%,較Pi0提升近30%,展現了其在高擾動高難度具身操作任務中的優勢。
![]()
▲ABot-M0在Libero-Plus上的評測結果
根據其技術報告,在訓練數據方面,研究人員整合了整合超過600萬條真實操作軌跡,涵蓋9500多個小時的訓練數據和20多個不同的機器人模型,為ABot-M0構建了目前規模最大的通用機器人數據集UniACT。
![]()
▲UniACT數據集概覽
該數據集通過統一動作表示、坐標系與控制頻率,并采用增量式動作建模,實現跨平臺數據融合,可支撐完全基于公開數據的模型預訓練。
訓練策略上,研究人員采用了兩階段訓練模式,第一階段為大規模預訓練,用于構建可泛化的動作先驗,第二階段為基于知識注入的空間感知監督微調。
第一階段訓練中,ABot-M0提出了全球首個動作流形學習,具體為有效的機器人動作受限于物理規律、任務目標與環境約束,集中分布在低維結構化的流形上。然后,研究人員通過AML(Action Manifold Learning)算法,使模型能夠直接預測結構合理、物理可行的動作序列,以提升策略的穩定性與解碼效率。
![]()
為增強機器人的空間感知能力,ABot-M0還引入了3D感知模塊,可增強模型對前后、遠近、遮擋等空間語義的理解。
![]()
▲三維信息注入流程
02.
ABot-N0:集成五大導航任務,全球首個!
在實際場景中,機器人需要在動態且存在干擾的環境里展現出通用的行動能力,如跨場景送物或跟隨服務。但當前的機器人會受困于環境看不懂、動作做不準,無法執行“去門口幫我看看快遞”等復雜指令。
基于此,高德推出了具身導航基座模型ABot-N0。
該模型在七大具身智能領域的基準測試CityWalker、SocNav、R2R-CE/RxR-CE、HM3D-OVON、BridgeNav、EVT-Bench中刷新了世界紀錄。
其中在考驗機器人在人群中社交導航能力的SocNav閉環仿真中,ABot-N0成功率(SR)提升至40.5%,在HM3D-OVON評測中成功率(SR)提升8.8%,表現優于此前的SOTA模型。
![]()
▲ABot-N0在多個數據集上的評測結果
根據技術報告,該模型以“全任務一統”為核心目標,全球首次在單一模型中完整集成Point-Goal(點位導航)、Object-Goal(目標導航)、Instruction-Following(指令跟隨)、POI-Goal(興趣點導航)與Person-Following(人物跟隨)五大導航任務。
點位導航:機器人必須達到在局部坐標系中定義的精確度量坐標,作為穩健運動和避障的基礎;
目標導航:機器人在未見過的環境中主動搜索并導航到特定對象類別,需要復雜的語義推理和多模態集成;
指令跟隨:機器人必須執行長遠、復雜的自然語言路徑,重點在于語言輸入與順序動作執行之間的嚴格對齊
興趣點導航:要求機器人識別特定的興趣點并精確導航到其物理入口,連接室外和室內環境,同時解決最后幾米的導航挑戰;
人物跟隨:涉及對動態人類目標的實時跟蹤,代表了人機交互的一項關鍵社交能力。
這使得搭載ABot-N0的機器人可以完成“帶我去奶茶店買一杯奶茶,再幫我占個座”的復雜指令。面對該需求,系統會分解導航任務:根據地圖記憶接近奶茶店區域完成點位導航,切換至目標導航鎖定店鋪入口并靠近,觸發指令跟隨進入店鋪并導航至柜臺;最后執行目標導航,在店內尋找空沙發并停靠。
![]()
集成了五大導航的ABot-N0,能讓機器人成功執行長程復雜任務。
![]()
▲ABot-N0架構圖
高德在模型架構方面采用了層次化的“大腦?動作”設計,并構建了業內最大規模具身導航數據引擎。
具體來看,“大腦?動作”設計由“認知大腦”理解指令并做推理,由基于流匹配(Flow Matching)的“動作專家”生成精確且多峰分布的連續軌跡。訓練層面,研究人員會先讓模型做認知訓練,再用部分認知數據和海量導航動作進行聯合監督微調,最后用強化學習把導航決策對齊到人類偏好的行為價值,最終打造出真實環境中更通用的VLA基座模型。
其構建的具身導航數據集涵蓋約8000個高保真3D場景等海量時空數據與近1700萬條專家示例,包含7802個高保真三維場景,覆蓋6.25公里的室內環境和4.42公里的室外環境。
![]()
▲ABot-N0的數據集
03.
結語:憑海量空間認知數據
地圖廠商切入具身智能賽道
作為地圖導航領域的頭部大廠,高德此前積累了大量的時空數據、環境理解與動態規劃能力,此次其推出的兩大模型分別聚焦機器人通用操作泛化與復雜環境魯棒行動,或進一步將地圖平臺的空間智能優勢轉化為機器人在真實世界的感知、決策與執行能力。
高德切入具身智能賽道,其具備天然的海量空間認知數據,或成為具身智能賽道中不可忽視的重要力量,加速機器人實現自主決策與執行。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.