具身世界模型新一代原生范式重磅登場!繼具身基礎模型GigaBrain-0.1斬獲 RoboChallenge 全球第一后,性能更強大的GigaBrain-0.5M*又來了。作為依托世界模型實現自我進化的 VLA 大模型,GigaBrain-0.5M*在家庭疊衣、服務沖煮咖啡、工業折紙盒等多個真實機器人任務中,均實現數小時零失誤、持續穩定運轉。
GigaBrain-0.5M* 作為一款基于世界模型條件驅動(World Model-Conditioned)的 VLA 大模型,以世界模型對未來狀態與價值的預測結果作為條件輸入,可顯著提升模型在長時程任務中的魯棒性。在此基礎上,GigaBrain-0.5M* 創新引入人在回路(Human-in-the-Loop)持續學習機制,系統依托經人工篩選與校正的模型推演軌跡開展迭代訓練,基于真實環境交互反饋持續優化決策策略,最終實現 “行動 — 反思 — 進化” 的閉環式持續學習與自主迭代升級
![]()
論文鏈接:https://arxiv.org/pdf/2602.12099
項目鏈接:https://gigabrain05m.github.io/
01 基于世界模型的強化學習的訓練范式
在 GigaBrain-0.5M* 的研發中,我們提出基于世界模型的強化學習范式,并采用迭代式四階段閉環訓練流程
- 基于大規模機器人操作數據完成世界模型預訓練,實現對未來狀態及對應價值的精準預測;
- 以世界模型輸出的未來狀態預測與價值評估為條件,對策略網絡進行微調,以指引動作決策;
- 將條件化策略部署至真實物理環境,依托人在環干預機制,采集模型自主推演軌跡數據;
- 利用經篩選后的有效軌跡數據集,聯合優化世界模型與決策策略,實現模型持續學習與自主進化。
![]()
02數小時連續零失誤執行
在與 AWR、RECAP 等主流模仿學習與強化學習基線方法的系統對比中,GigaBrain-0.5M* 展現出顯著優勢,在相同任務設定下,相較于由π*0.6由所提出的RECAP 基線,任務成功率提升近 30%,并實現了穩定可靠的模型效果。
尤其在高難度長時程任務中,面對折紙盒、咖啡制備、衣物折疊等包含多階段操作、精細感知與持續決策的復雜場景,GigaBrain?0.5M* 均實現接近 100% 的任務成功率,并可穩定復現成功執行軌跡,充分彰顯出卓越的策略魯棒性。
![]()
03 高效且準確的價值預測
實驗結果表明,基于世界模型的價值預測方案在執行效率與預測精度上,均優于π*0.6所提出的VLM方案。該方案的核心優勢源自對未來狀態的顯式建模與世界模型單步降噪機制,可為價值函數提供關鍵的時序上下文支撐,讓價值估計實現更高效、更精準、更穩定的輸出。
以疊衣服任務為例:任務初期,機械臂反復調整衣物姿態時,預測價值呈現合理波動;當衣物擺正、進入穩定疊放階段,價值曲線穩步上升;若中途出現干擾物,價值驟降以反映任務受阻;待干擾物被移除后,價值迅速恢復增長趨勢。這種與任務物理進程高度對齊的價值演化,正是世界模型提供“認知先驗”的直接體現。
![]()
04 上萬小時的訓練數據
GigaBrain-0.5M* 的基座模型 GigaBrain-0.5 基于總計 10,931 小時的多樣化機器人操作數據進行預訓練,其中 61%(6,653 小時)由自研具身世界模型 GigaWorld 高保真合成,覆蓋紋理遷移、視角變換、人手到機械臂映射等豐富場景;剩余 39%(4,278 小時)源自真實機器人采集,確保策略在物理世界中的可執行性。海量數據的引入顯著拓展了模型的任務覆蓋廣度與策略魯棒性,使其在面對復雜、長時程操作任務時具備更強的泛化能力;而 GigaWorld 生成的合成數據則有效突破了真實采集的長尾瓶頸。通過可控地生成新紋理、新物體位姿與新觀測視角下的訓練樣本,增強了模型在分布外場景中的適應性,為具身智能走向開放世界奠定了數據基石。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.