![]()
在具身智能領域,特別是如何構造一個高泛化性的 VLA,數據之爭一直存在:仿真數據 vs 真機數據。數據來源不同,導致算法設計迥然不同,進一步對系統設計提出了更多的要求。做 infra 的目標是做好服務,支持不同技術路線的探索。
「仿訓推一體化」RLinf v0.1 面向的是采用仿真路線的用戶,那么今天要給大家介紹的是 RLinf v0.2,面向采用真機路線的用戶,也就是支持了真機強化學習。
![]()
- 論文標題:RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation
- 論文地址:https://arxiv.org/abs/2509.15965
- 開源地址:https://github.com/RLinf/RLinf
下面針對 RLinf v0.2 的特色展開介紹。
特色 1:RLinf 允許用戶
像使用 GPU 一樣使用機器人
在 RLinf 中,我們將機器人看作與 GPU 相同層級的、可靈活配置的資源,如圖 1 所示,GPU Node 和 Robot Node 處于同一層級。過去我們通常把 Worker(訓練、推理等工作組件)加載在 GPU 上,現在我們可以把 Worker 加載在機器人上。只要能夠 access 到機器人的 IP 和端口,無論它們身在何處,都可以接入 RLinf 系統。
RLinf 會按照用戶配置進一步完成模型與機器人的對應映射,之后 RLinf 會通過 Data Channel(RLinf 的通信原語)完成數據收集和模型參數更新。而實現這一切,用戶只需要編寫 YAML 文件即可完成,極大地降低了使用成本。例如,下圖 2 展示了以 Franka 為例的 2 臺機器人配置方法。
![]()
圖 1 將機器人看作與 GPU 相同層級的、可靈活配置的資源 圖 2 用戶只需要編寫 YAML 文件即可完成真機對接
![]()
圖2 用戶只需要編寫YAML文件即可完成真機對接
RLinf 這一獨特設計是為了解鎖更宏大的目標,即大規模分布式真機強化學習訓練范式,如圖 3 所示。
這一范式將有望成為具身智能在除了 Scaling 數據、模型之外的第三條路徑:Scaling 真機。大規模真機強化學習能夠解決當下真機強化學習面臨的諸多問題,當然,天下沒有免費的午餐,放松了對算法的要求,對應地增加了對 infra 的要求,如何做到穩定、易用、靈活是 infra 要解決的主要挑戰。
RLinf 針對這一問題給出了自己的答案:極度靈活的系統設計思想支持多樣需求。特別地,RLinf 提出適配強化學習的新一代編程范式 Macro-to-Micro Flow (M2Flow),將上層工作流與底層計算優化解耦,兼顧了靈活性與高效性。
![]()
圖 3 大規模分布式真機強化學習系統
特色 2:RLinf 支持
全異構軟硬件集群配置
由于與物理世界高度耦合,真機強化學習面臨的集群配置通常是異構的、端云協同的。例如,機器人的控制端需要實時操作系統且不需要運行神經網絡模型,通常會運行在單獨的 CPU 機器,如 NUC;VLA 模型推理端需要與機器人的控制端足夠近,使得通信代價最小,且推理需要顯存較小,因此 VLA 模型推理通常直接運行在端側小顯存機器,如 24GB 的 4090;VLA 模型訓練為了加快訓練速度,通常需要云端大顯存機器集群,如 80GB 的 A100/800 等。
在端云協同的背景下,RLinf 支持靈活的全異構的軟硬件集群配置,提升系統吞吐和訓練效率。例如,你可以:
- 在支持光線追蹤的 GPU(如 RTX 4090)上運行高保真模擬器;
- 在大顯存計算 GPU(如 A800)上進行訓練;
- 在小顯存計算 GPU(如 RTX 4090)進行推理;
- 在無顯存的 CPU 機器(如 NUC)運行機器人控制器。
在 RLinf 中接入這樣的異構環境,只需要在 YAML 配置文件中正確配置 cluster 段落即可,如下圖 4 所示。
![]()
圖 4 RLinf 支持全異構軟硬件集群配置
特色 3:RLinf 支持
全異步 off-policy 算法
真機強化學習的一個典型局限就是物理世界無法被加速,數據效率成為顯著瓶頸,所以如何提高數據利用率成為關鍵一環。除此之外,當下真機強化學習的一種行之有效的方法是人在環介入,例如在執行過程中提供專家示教數據,或者實時標注數據等,傳統同步訓推框架將會極大限制這一類方法的訓練效率。
因此,RLinf v0.2 新增全異步設計,端側推理節點與云側訓練節點解耦,通過 Data Channel 進行數據周期性同步,進而實現訓推并行,極大提高訓練效率。同時,RLinf v0.2 上線典型 off-policy RL 算法,包括僅利用在線數據的 SAC [1]、CrossQ [2] 和同時利用離線數據集和在線數據的 RLPD [3] 等,進一步提升數據利用率。RLinf 中異步工作流示意圖如圖 5 所示。
![]()
圖 5 全異步算法流圖
實驗結果
本次發布的嘗鮮版是基于小模型的真機強化學習。為了方便大家快速、低成本復現實驗,我們采用常見的Franka 機械臂,基于常見物品或者易獲取標準件設計了兩個快速驗證任務:ChargerPeg Insertion。其中,Charger 任務為稠密獎勵,使用異步 SAC [1] 算法訓練,訓練過程中有 20 次左右的人在環空間鼠標接管,以提高訓練效率。Peg Insertion 任務為稀疏獎勵,使用異步 RLPD 算法 [3] 訓練。在開始訓練前,采集了 20 條人類操作數據存儲在 Demo Buffer 中。
兩個任務的成功率曲線如圖 6 所示。可以發現,兩個任務均可以在 1.5h 以內收斂。收斂后,Peg Insertion 任務可以連續 100+ 次成功,Charger 任務可以連續 50+ 次成功
![]()
圖 6 Peg Insertion & Charger 成功率曲線
訓練過程的視頻記錄如視頻 1 所示,完整記錄了兩個任務的訓練過程。同時我們也驗證了位于不同空間的兩臺 Franka 機械臂同時進行真機強化學習,見視頻 2。
視頻 1:訓練過程。上:Peg Insertion;下:Charger
視頻 2:位于不同房間的兩臺 Franka 機械臂同時進行真機強化學習
RLinf 全體成員向支持 RLinf 的 2k 位社區用戶表達感謝。用戶的使用和反饋促使團隊不斷完善代碼,也不斷增加了團隊堅定走下去的信心。自 2025.9.1 發布以來,RLinf 幾乎保持著每 2 周更新一次新 feature 的開發速度,在經過幾輪重構后,面向具身仿真路線需求的「仿訓推一體化」強化學習框架 RLinf v0.1 版本于 2025.12.17 正式 release,歡迎大家查看中英雙語文檔(對!除了代碼沒有中文版,其他材料都有中文版!不要錯過!)。目前 RLinf 支持矩陣可以總結如下:
- Simulator:Maniskill、IsaacLab、LIBERO、CALVIN、MetaWorld、Behavior、RoboCasa
- VLA:Pi0,Pi05,GR00T,OpenVLA,OpenVLA-OFT
- Custom policy:MLP、CNN
- RL Algos:GRPO、PPO、DAPO、Reinforce++
- SFT:Full-para SFT、LoRA
仿真路線還在持續開發,更多的 feature,如仿真器、模型也會盡快跟大家見面!
參考文獻:
[1] Haarnoja, Tuomas, et al. "Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor." International Conference on Machine Learning. PMLR, 2018.
[2] Bhatt, Aditya, et al. "CrossQ: Batch Normalization in Deep Reinforcement Learning for Greater Sample Efficiency and Simplicity." The Twelfth International Conference on Learning Representations, 2024.
[3] Ball, Philip J., et al. "Efficient online reinforcement learning with offline data." International Conference on Machine Learning. PMLR, 2023.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.