允中 發自 凹非寺
量子位 | 公眾號 QbitAI
疊衣服、沖咖啡、折紙盒。
這些看似瑣碎的小事,曾是具身智能跨不過去的“長時程”深淵。
但現在,紀錄被刷新了:數小時零失誤、持續穩定運轉。
還記得此前在RoboChallenge斬獲全球第一的GigaBrain-0.1嗎?
![]()
它的進化體——GigaBrain-0.5M*VLA大模型現在悄然登場了。
性能更強大,依靠世界模型條件驅動,以世界模型對未來狀態與價值的預測結果作為條件輸入,可顯著提升模型在長時程任務中的魯棒性。
在此基礎上,GigaBrain-0.5M*創新引入人在回路持續學習機制,系統依托經人工篩選與校正的模型推演軌跡開展迭代訓練,基于真實環境交互反饋持續優化決策策略,最終實現“行動—反思—進化”的閉環式持續學習與自主迭代升級。
![]()
在與主流方法RECAP的正面硬剛中,它直接把任務成功率強行拉升了30%
能反思、會進化,具身智能的“原生范式”,這次看來真的變天了。
基于世界模型的強化學習的訓練范式
在GigaBrain-0.5M*的研發中,極佳視界團隊提出基于世界模型的強化學習范式,并采用迭代式四階段閉環訓練流程:
- 基于大規模機器人操作數據完成世界模型預訓練,實現對未來狀態及對應價值的精準預測;
- 以世界模型輸出的未來狀態預測與價值評估為條件,對策略網絡進行微調,以指引動作決策;
- 將條件化策略部署至真實物理環境,依托人在環(Human-in-the-Loop)干預機制,采集模型自主推演軌跡數據;
- 利用經篩選后的有效軌跡數據集,聯合優化世界模型與決策策略,實現模型持續學習與自主進化。
![]()
數小時連續零失誤執行
在與AWR、RECAP等主流模仿學習與強化學習基線方法的系統對比中,GigaBrain-0.5M*展現出顯著優勢,在相同任務設定下,相較于由π*0.6所提出的RECAP基線,任務成功率提升近30%,并實現了穩定可靠的模型效果。
尤其在高難度長時程任務中,面對折紙盒、咖啡制備、衣物折疊等包含多階段操作、精細感知與持續決策的復雜場景,GigaBrain?0.5M*均實現接近100%的任務成功率,并可穩定復現成功執行軌跡,充分彰顯出卓越的策略魯棒性。
![]()
高效且準確的價值預測
實驗結果表明,基于世界模型的價值預測方案在執行效率與預測精度上,均優于π*0.6所提出的VLM方案。
該方案的核心優勢源自對未來狀態的顯式建模與世界模型單步降噪機制,可為價值函數提供關鍵的時序上下文支撐,讓價值估計實現更高效、更精準、更穩定的輸出。
疊衣服任務為例:
- 任務初期,機械臂反復調整衣物姿態時,預測價值呈現合理波動;
- 當衣物擺正、進入穩定疊放階段,價值曲線穩步上升;
- 若中途出現干擾物,價值驟降以反映任務受阻;
- 待干擾物被移除后,價值迅速恢復增長趨勢。
這種與任務物理進程高度對齊的價值演化,正是世界模型提供“認知先驗”的直接體現。
![]()
上萬小時的訓練數據
GigaBrain-0.5M*的基座模型GigaBrain-0.5基于總計10,931小時的多樣化機器人操作數據進行預訓練,其中:
- 61%(6,653小時)由自研具身世界模型GigaWorld高保真合成,覆蓋紋理遷移、視角變換、人手到機械臂映射等豐富場景;
- 剩余39%(4,278小時)源自真實機器人采集,確保策略在物理世界中的可執行性。
海量數據的引入,顯著拓展了模型的任務覆蓋廣度與策略魯棒性,使其在面對復雜、長時程操作任務時具備更強的泛化能力;
而GigaWorld生成的合成數據,則有效突破了真實采集的長尾瓶頸。
![]()
通過可控地生成新紋理、新物體位姿與新觀測視角下的訓練樣本,增強了模型在分布外場景中的適應性,為具身智能走向開放世界奠定了數據基石。
這背后,是極佳視界對具身智能進化路徑的深遠布局。
通過“基模-本體-場景”的深度打磨,極佳圍繞世界模型平臺GigaWorld、通用具身大腦GigaBrain、原生本體Maker構筑起了一套能自我進化的閉環生態。
這種體系化的作戰方式,讓極佳視界不僅在實驗室里斬獲冠軍,更具備了將進化效率提升10-100倍的硬實力,致力于推動通用機器人服務千行百業、走進千家萬戶。
論文鏈接:
https://arxiv.org/pdf/2602.12099
項目鏈接:
https://gigabrain05m.github.io/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.