給機(jī)器人裝上“3D大腦外掛”！智源新具身智能大腦來了，跨英偉達(dá)、摩爾線程GPU訓(xùn)練

2026-01-27 19:19:10　來源: 機(jī)器人前瞻

北京舉報

分享至

基于超千萬高質(zhì)量樣本訓(xùn)練，多項(xiàng)表現(xiàn)優(yōu)于Gemini-3-Pro-Preview、GPT-5.2。

作者 |程茜

編輯 |漠影

機(jī)器人前瞻1月27日報道，昨日晚間，智源研究院正式發(fā)布新一代具身智能大腦基礎(chǔ)模型RoboBrain 2.5，該模型在空間推理與時序價值估計的多項(xiàng)基準(zhǔn)測試中取得SOTA。這一模型的兩大升級點(diǎn)為，空間定位更精準(zhǔn)，以及執(zhí)行過程實(shí)時反饋以強(qiáng)化操作穩(wěn)定性。

對應(yīng)到技術(shù)細(xì)節(jié)就是精確3D空間推理（Precise 3D Spatial Reasoning）與稠密時序價值預(yù)測（Dense Temporal Value Estimation）。

可以看到在下面的空間關(guān)系推理案例中，搭載RoboBrain 2.5模型的機(jī)械臂準(zhǔn)確判斷了離相機(jī)最近的盤子、左邊的蘋果是哪個，然后對運(yùn)動路徑進(jìn)行規(guī)劃完成操作。

具體來看，RoboBrain 2.5在空間感知和推理能力，以及稠密時序價值方面分別實(shí)現(xiàn)了三大升級：

1、空間維度升級：從預(yù)測2D圖像上的坐標(biāo)點(diǎn)升級為預(yù)測3D空間中帶有深度信息的坐標(biāo)點(diǎn)。

2、度量精度升級：從理解相對空間關(guān)系到測量絕對3D空間度量信息，模型能夠精確理解“懸停在上方1～5厘米處”等物理約束指令。

3、操作規(guī)劃升級：從預(yù)測拾取和放置的單個目標(biāo)點(diǎn)升級為預(yù)測描述完整操作過程的系列關(guān)鍵點(diǎn)，具備帶有3D絕對度量的空間規(guī)劃能力。

4、密集進(jìn)度預(yù)測：能夠在不同任務(wù)、視角和形態(tài)之間進(jìn)行多粒度任務(wù)進(jìn)度預(yù)測。

5、執(zhí)行狀態(tài)估計：理解任務(wù)目標(biāo)，并在執(zhí)行過程中估計各種狀態(tài)（例如，成功、失敗、錯誤發(fā)生）。

6、賦能VLA強(qiáng)化學(xué)習(xí)：為VLA強(qiáng)化學(xué)習(xí)提供實(shí)時、密集的反饋信號和獎勵。僅通過一次演示，在復(fù)雜、細(xì)粒度的操作中即可實(shí)現(xiàn)95%以上的任務(wù)成功率。

值得一提的是，RoboBrain 2.5已經(jīng)在摩爾線程等多種AI芯片集群上，完成了完整的端到端訓(xùn)練與對齊驗(yàn)證。智源研究院在Hugging Face上發(fā)布了RoboBrain 2.5-8B檢查點(diǎn)：RoboBrain 2.5-8B-NV和RoboBrain 2.5-8B-MT，這兩個變體具有相同的架構(gòu)和訓(xùn)練數(shù)據(jù)、性能相似，不同之處在于NV在NVIDIA GPU集群上訓(xùn)練，MT在摩爾線程GPU集群上訓(xùn)練。

GitHub地址：

https://github.com/FlagOpen/RoboBrain2.5

Hugging Face地址：

https://huggingface.co/collections/BAAI/robobrain25

01.

雜亂房間也能準(zhǔn)確規(guī)劃運(yùn)動路徑

長時跟蹤參考信號不偏移

智源研究院放出了不少RoboBrain 2.5的實(shí)測演示。

在3D空間推理上，下面展示了RoboBrain 2.5在面向機(jī)器人空間軌跡推理的專用評測基準(zhǔn)TraceSpatial-Bench的表現(xiàn)，其中黃色遮罩標(biāo)記了目標(biāo)物體，粉色3D框標(biāo)記了正確的末端區(qū)域。可以看出，RoboBrain 2.5產(chǎn)生的空間軌跡比通用VLM更準(zhǔn)確。

RoboBrain 2.5還可以生成更準(zhǔn)確的3D空間軌跡，下面的機(jī)械臂遵循該模型生成的3D空間軌跡，成功完成了拿取、移動物體等一系列多樣的操作任務(wù)。

在雜亂場景，該模型也可以進(jìn)行空間追蹤。

對于稠密時序價值方面的能力升級，研究人員將人類標(biāo)注的參考獎勵、VLAC基線和RoboBrain 2.5沿著相同軌跡進(jìn)行繪制。可以看到，RoboBrain 2.5可以做到更忠實(shí)地跟蹤參考信號，對錯誤的插入、低位置和錯位進(jìn)行嚴(yán)厲懲罰，并且只在成功完成任務(wù)附近分配高獎勵。

02.

兩大技術(shù)升級

讓機(jī)器人在三維空間里精準(zhǔn)定位

當(dāng)前通用模型有兩個局限性。在空間維度上，模型存在度量盲區(qū)，其雖能理解2D圖像中的目標(biāo)與關(guān)系，卻缺乏將其轉(zhuǎn)化為真實(shí)尺度下可執(zhí)行3D軌跡的能力；在時間維度上，多數(shù)模型仍將動作生成簡化為靜態(tài)序列預(yù)測，無法對操作過程中出現(xiàn)的打滑、偏移等動態(tài)變化做出實(shí)時評估與調(diào)整，致使長任務(wù)難以穩(wěn)定完成。

為了彌合這一差距，具身智能基礎(chǔ)模型需要將空間感知能力從“2D指點(diǎn)”升級為“精確3D規(guī)劃”，簡言之就是，之前的空間感知能力是在平面圖片上指點(diǎn)，需要升級為在真實(shí)三維空間里精準(zhǔn)判斷位置、距離、規(guī)劃操作路徑。

基于此，智源研究院提出RoboBrain 2.5，引入兩項(xiàng)增強(qiáng)功能。

首先，研究人員引入了精確3D空間推理（Precise 3D Spatial Reasoning）框架。

機(jī)器人通常需要根據(jù)日益復(fù)雜且空間受限的指令執(zhí)行動作，如讓機(jī)器人“用噴壺從左到右給花朵澆水，在每朵花上方1～5厘米處懸停”，但目前VLA模型難以勝任此類任務(wù)。

因此需要為其生成3D位置序列，來指導(dǎo)機(jī)器人生成實(shí)際動作軌跡，每個推理步驟需要兩個關(guān)鍵組成部分，一是3D空間參照，用于解析空間關(guān)系并精確定位軌跡生成過程中涉及的物體，如識別花朵及其從左到右的順序并確定它們的位置；二是3D空間測量，用于理解與所捕獲場景中軌跡相關(guān)的絕對真實(shí)世界度量量，如量化每朵花的實(shí)際高度以及其上方1～5厘米的高度。

接著需要進(jìn)行3D任務(wù)制定，其將三維空間追蹤形式化為，通過視覺語言模型，根據(jù)RGB圖像等視覺輸入和文本指令，預(yù)測一個有序的三維點(diǎn)序列。然后讓其輸出“符合碰撞約束的可執(zhí)行關(guān)鍵點(diǎn)軌跡”，讓機(jī)器人具備更強(qiáng)的幾何可行性與動作連貫性。

第二大升級是稠密時序價值預(yù)測（Dense Temporal Value Estimation），可以提供實(shí)時、步進(jìn)感知的進(jìn)度評估作為時間值反饋，為機(jī)器人提供過程監(jiān)督，如當(dāng)前執(zhí)行在哪一步？任務(wù)在有效推進(jìn)還是發(fā)生偏離、已經(jīng)失敗？

為降低長軌跡執(zhí)行中的誤差累積、提升多視角魯棒性，RoboBrain 2.5從三個互補(bǔ)視角生成并融合進(jìn)度估計信號：增量式（Incremental）精細(xì)捕捉局部動態(tài)，但易累積漂移；前向錨定（Forward-anchored）以初始狀態(tài)為全局參照，更穩(wěn)定；后向錨定（Backward-anchored）以目標(biāo)狀態(tài)為參照，對接近完成階段更敏感。

這三個環(huán)節(jié)的融合，可以讓模型得到更具抗漂移能力的價值信號，用于支持長時閉環(huán)執(zhí)行。

與此同時，RoboBrain 2.5還保留了2.0版本的三大核心能力，包括支持具有長時規(guī)劃與閉環(huán)反饋的交互推理、從復(fù)雜指令中進(jìn)行精確點(diǎn)與預(yù)測的空間感知、用于未來軌跡估計的時間感知，以及通過實(shí)時結(jié)構(gòu)化記憶構(gòu)建和更新進(jìn)行場景推理。

03.

在英偉達(dá)、摩爾線程平臺上訓(xùn)練

多個測試基準(zhǔn)達(dá)到SOTA

從基準(zhǔn)測試的評估結(jié)果來看，在多項(xiàng)空間推理與時序價值估計基準(zhǔn)任務(wù)上，RoboBrain 2.5取得了新的SOTA表現(xiàn)。

2D空間推理基準(zhǔn)測試的評估結(jié)果顯示，在NVIDIA GPU平臺和摩爾線程MTT GPU平臺上訓(xùn)練的RoboBrain-2.5模型變體均取得了75.82的平均分，相比通用基線和具身基線有提升。

▲RoboBrain 2.5各訓(xùn)練階段的詳細(xì)配置

與通用基線相比，RoboBrain-2.5的2D空間推理平均分高于Gemini-3-Pro-Preview、Qwen3-VL-8B-Inst、GPT-5.2。

在更強(qiáng)調(diào)可執(zhí)行性的3D任務(wù)上，RoboBrain 2.5在評估雜亂3D場景中基于度量的多步空間追蹤測試集TraceSpatial上，表現(xiàn)優(yōu)于Gemini-3-Pro-Preview、Qwen3-VL-8B-Inst、GPT-5.2。

此外評估操作進(jìn)展的精細(xì)時間價值估計上，RoboBrain 2.5在多個數(shù)據(jù)測試中，對操作對錯的判斷能力更均衡、更一致，能讓模型更好地邊做邊學(xué)，還能實(shí)時發(fā)現(xiàn)并糾正操作中的錯誤。

在工程可擴(kuò)展性方面，智源研究院基于其眾智FlagOS多芯片統(tǒng)一AI系統(tǒng)軟件棧，推出了面向具身智能的訓(xùn)推一體化多芯片框架FlagOS-Robo。

基于智源研究院推出的面向具身智能的訓(xùn)推一體化多芯片框架FlagOS-Robo，RoboBrain2.5在摩爾線程等多個AI芯片集群上，完成了完整的端到端訓(xùn)練與對齊驗(yàn)證。

實(shí)驗(yàn)結(jié)果表明，其訓(xùn)練損失值（loss）對齊，訓(xùn)練趨勢一致，最終loss差異為0.62%。

借助FlagOS-Robo，開發(fā)者可以將基于摩爾線程、華為昇騰等各類AI芯片平臺的訓(xùn)練成果，無縫遷移至天數(shù)智芯、英偉達(dá)等多種端側(cè)AI芯片平臺進(jìn)行推理驗(yàn)證。

04.

超千萬高質(zhì)量樣本訓(xùn)練

雙階段漸進(jìn)訓(xùn)練策略

在訓(xùn)練數(shù)據(jù)上，研究人員為RoboBrain 2.5的訓(xùn)練構(gòu)建了包含約1240萬個高質(zhì)量樣本的統(tǒng)一語料庫，并將其分為三個核心領(lǐng)域：用于魯棒語義感知的通用MLLM數(shù)據(jù)，涵蓋從二維感知到度量感知三維追蹤的空間推理數(shù)據(jù)，用于分層規(guī)劃和密集值估計的時間預(yù)測數(shù)據(jù)。

▲訓(xùn)練數(shù)據(jù)分布圖

在訓(xùn)練策略方面，與RoboBrain 2.0類似，RoboBrain 2.5通過漸進(jìn)式的雙階段訓(xùn)練策略實(shí)現(xiàn)了具身認(rèn)知能力提升。

訓(xùn)練流程分為兩個不同的階段：通用時空基礎(chǔ)階段建立廣泛的視覺語義、二維空間基礎(chǔ)和開環(huán)規(guī)劃能力；特定時空增強(qiáng)階段，在定量三維空間推理和密集時間值估計方面對模型進(jìn)行微調(diào)，以確保精確的、度量感知的物理交互。

RoboBrain 2.5先通過大規(guī)模通用時空學(xué)習(xí)搭建“Generalist Brain（通用大腦）”，使其能夠理解多模態(tài)指令、將物體定位在二維空間中，并掌握高級規(guī)劃邏輯。

這一階段的作用是提供一個強(qiáng)魯棒、強(qiáng)泛化的初始化，讓模型先“看得懂、想得通”，為后續(xù)引入更嚴(yán)格的物理約束與精確監(jiān)督打下可遷移的通用底座。

第二階段是特定時空增強(qiáng)，重點(diǎn)在于精確的定量推理。

研究人員通過兩條強(qiáng)化路徑把語義推理落到真實(shí)動作層面：一方面引入面向度量的3D軌跡學(xué)習(xí)（Metric-Aware 3D Tracing），讓模型從定性空間關(guān)系邁向定量幾何約束，能夠?qū)W習(xí)絕對3D坐標(biāo)、深度軌跡以及可度量距離，從而輸出在真實(shí)尺度下可執(zhí)行的操作關(guān)鍵點(diǎn)與軌跡；另一方面升級時序建模為稠密價值估計（Dense Value Estimation），把原先的兩兩比較式時間價值學(xué)習(xí)推進(jìn)為顯式的Hop/進(jìn)度預(yù)測，使模型具備可直接用作價值函數(shù)（critic）的在線反饋能力，進(jìn)而支持策略排序、過程監(jiān)控與錯誤恢復(fù)等閉環(huán)需求。

05.

結(jié)語：未來四大升級重點(diǎn)

要讓具身智能具備可持續(xù)優(yōu)化能力

在未來的研究中，智源研究院計劃從以下四個主要方向擴(kuò)展RoboBrain模型系列的功能和效率：

統(tǒng)一生成與理解范式：其目標(biāo)是將RoboBrain打造為融合時空理解與生成能力的統(tǒng)一架構(gòu)，整合圖像、視頻的下一階段預(yù)測能力，使其成為具身世界模型，支撐智能體動作預(yù)模擬，提升復(fù)雜環(huán)境下規(guī)劃的安全性與魯棒性。

在移動操作和人形機(jī)器人上的部署：其將廣泛驗(yàn)證模型，并在各種真實(shí)世界平臺上部署模型。研究人員的重點(diǎn)是利用精確的3D空間推理來實(shí)現(xiàn)無需訓(xùn)練的操作泛化，同時利用密集時間值估計作為高保真獎勵信號，以在物理世界中驅(qū)動高效的強(qiáng)化學(xué)習(xí)。

可擴(kuò)展模型系列和專用變體：為了適應(yīng)不同的計算約束和延遲要求，智源研究院計劃發(fā)布一系列具有不同參數(shù)規(guī)模的綜合模型，包括針對邊緣設(shè)備部署和高頻推理優(yōu)化的輕量級版本，以及將架構(gòu)解耦為不同的“指令”（快速執(zhí)行）和“思考”（慢速推理）版本，以平衡響應(yīng)速度和推理深度。

自演化數(shù)據(jù)引擎：其計劃構(gòu)建一個閉環(huán)數(shù)據(jù)引擎，通過利用密集值估計器自動過濾和標(biāo)注大規(guī)模未經(jīng)整理的視頻，使得該模型可以通過自監(jiān)督學(xué)習(xí)迭代改進(jìn)自身，從而形成持續(xù)提升能力的飛輪效應(yīng)。

與此同時，RoboBrain2.5的技術(shù)突破也揭示了，具身智能規(guī)模化發(fā)展的核心，不僅在于強(qiáng)化推理能力，更關(guān)鍵是實(shí)現(xiàn)與物理世界的對齊，以及具備可持續(xù)的閉環(huán)優(yōu)化能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.