網易首頁 > 網易號 > 正文申請入駐

RLinf v0.2嘗鮮版發布，像使用GPU一樣使用你的機器人！

2025-12-26 14:02:06　來源: 機器之心Pro

河北舉報

分享至

在具身智能領域，特別是如何構造一個高泛化性的 VLA，數據之爭一直存在：仿真數據 vs 真機數據。數據來源不同，導致算法設計迥然不同，進一步對系統設計提出了更多的要求。做 infra 的目標是做好服務，支持不同技術路線的探索。

「仿訓推一體化」RLinf v0.1 面向的是采用仿真路線的用戶，那么今天要給大家介紹的是 RLinf v0.2，面向采用真機路線的用戶，也就是支持了真機強化學習。

論文標題：RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation
論文地址：https://arxiv.org/abs/2509.15965
開源地址：https://github.com/RLinf/RLinf

下面針對 RLinf v0.2 的特色展開介紹。

特色 1：RLinf 允許用戶

像使用 GPU 一樣使用機器人

在 RLinf 中，我們將機器人看作與 GPU 相同層級的、可靈活配置的資源，如圖 1 所示，GPU Node 和 Robot Node 處于同一層級。過去我們通常把 Worker（訓練、推理等工作組件）加載在 GPU 上，現在我們可以把 Worker 加載在機器人上。只要能夠 access 到機器人的 IP 和端口，無論它們身在何處，都可以接入 RLinf 系統。

RLinf 會按照用戶配置進一步完成模型與機器人的對應映射，之后 RLinf 會通過 Data Channel（RLinf 的通信原語）完成數據收集和模型參數更新。而實現這一切，用戶只需要編寫 YAML 文件即可完成，極大地降低了使用成本。例如，下圖 2 展示了以 Franka 為例的 2 臺機器人配置方法。

圖 1 將機器人看作與 GPU 相同層級的、可靈活配置的資源圖 2 用戶只需要編寫 YAML 文件即可完成真機對接

圖2 用戶只需要編寫YAML文件即可完成真機對接

RLinf 這一獨特設計是為了解鎖更宏大的目標，即大規模分布式真機強化學習訓練范式，如圖 3 所示。

這一范式將有望成為具身智能在除了 Scaling 數據、模型之外的第三條路徑：Scaling 真機。大規模真機強化學習能夠解決當下真機強化學習面臨的諸多問題，當然，天下沒有免費的午餐，放松了對算法的要求，對應地增加了對 infra 的要求，如何做到穩定、易用、靈活是 infra 要解決的主要挑戰。

RLinf 針對這一問題給出了自己的答案：極度靈活的系統設計思想支持多樣需求。特別地，RLinf 提出適配強化學習的新一代編程范式 Macro-to-Micro Flow (M2Flow)，將上層工作流與底層計算優化解耦，兼顧了靈活性與高效性。

圖 3 大規模分布式真機強化學習系統

特色 2：RLinf 支持

全異構軟硬件集群配置

由于與物理世界高度耦合，真機強化學習面臨的集群配置通常是異構的、端云協同的。例如，機器人的控制端需要實時操作系統且不需要運行神經網絡模型，通常會運行在單獨的 CPU 機器，如 NUC；VLA 模型推理端需要與機器人的控制端足夠近，使得通信代價最小，且推理需要顯存較小，因此 VLA 模型推理通常直接運行在端側小顯存機器，如 24GB 的 4090；VLA 模型訓練為了加快訓練速度，通常需要云端大顯存機器集群，如 80GB 的 A100/800 等。

在端云協同的背景下，RLinf 支持靈活的全異構的軟硬件集群配置，提升系統吞吐和訓練效率。例如，你可以：

在支持光線追蹤的 GPU（如 RTX 4090）上運行高保真模擬器；
在大顯存計算 GPU（如 A800）上進行訓練；
在小顯存計算 GPU（如 RTX 4090）進行推理；
在無顯存的 CPU 機器（如 NUC）運行機器人控制器。

在 RLinf 中接入這樣的異構環境，只需要在 YAML 配置文件中正確配置 cluster 段落即可，如下圖 4 所示。

圖 4 RLinf 支持全異構軟硬件集群配置

特色 3：RLinf 支持

全異步 off-policy 算法

真機強化學習的一個典型局限就是物理世界無法被加速，數據效率成為顯著瓶頸，所以如何提高數據利用率成為關鍵一環。除此之外，當下真機強化學習的一種行之有效的方法是人在環介入，例如在執行過程中提供專家示教數據，或者實時標注數據等，傳統同步訓推框架將會極大限制這一類方法的訓練效率。

因此，RLinf v0.2 新增全異步設計，端側推理節點與云側訓練節點解耦，通過 Data Channel 進行數據周期性同步，進而實現訓推并行，極大提高訓練效率。同時，RLinf v0.2 上線典型 off-policy RL 算法，包括僅利用在線數據的 SAC [1]、CrossQ [2] 和同時利用離線數據集和在線數據的 RLPD [3] 等，進一步提升數據利用率。RLinf 中異步工作流示意圖如圖 5 所示。

圖 5 全異步算法流圖

實驗結果

本次發布的嘗鮮版是基于小模型的真機強化學習。為了方便大家快速、低成本復現實驗，我們采用常見的Franka 機械臂，基于常見物品或者易獲取標準件設計了兩個快速驗證任務：ChargerPeg Insertion。其中，Charger 任務為稠密獎勵，使用異步 SAC [1] 算法訓練，訓練過程中有 20 次左右的人在環空間鼠標接管，以提高訓練效率。Peg Insertion 任務為稀疏獎勵，使用異步 RLPD 算法 [3] 訓練。在開始訓練前，采集了 20 條人類操作數據存儲在 Demo Buffer 中。

兩個任務的成功率曲線如圖 6 所示。可以發現，兩個任務均可以在 1.5h 以內收斂。收斂后，Peg Insertion 任務可以連續 100+ 次成功，Charger 任務可以連續 50+ 次成功

圖 6 Peg Insertion & Charger 成功率曲線

訓練過程的視頻記錄如視頻 1 所示，完整記錄了兩個任務的訓練過程。同時我們也驗證了位于不同空間的兩臺 Franka 機械臂同時進行真機強化學習，見視頻 2。

視頻 1：訓練過程。上：Peg Insertion；下：Charger

視頻 2：位于不同房間的兩臺 Franka 機械臂同時進行真機強化學習

RLinf 全體成員向支持 RLinf 的 2k 位社區用戶表達感謝。用戶的使用和反饋促使團隊不斷完善代碼，也不斷增加了團隊堅定走下去的信心。自 2025.9.1 發布以來，RLinf 幾乎保持著每 2 周更新一次新 feature 的開發速度，在經過幾輪重構后，面向具身仿真路線需求的「仿訓推一體化」強化學習框架 RLinf v0.1 版本于 2025.12.17 正式 release，歡迎大家查看中英雙語文檔（對！除了代碼沒有中文版，其他材料都有中文版！不要錯過！）。目前 RLinf 支持矩陣可以總結如下：

Simulator：Maniskill、IsaacLab、LIBERO、CALVIN、MetaWorld、Behavior、RoboCasa
VLA：Pi0，Pi05，GR00T，OpenVLA，OpenVLA-OFT
Custom policy：MLP、CNN
RL Algos：GRPO、PPO、DAPO、Reinforce++
SFT：Full-para SFT、LoRA

仿真路線還在持續開發，更多的 feature，如仿真器、模型也會盡快跟大家見面！

參考文獻：

[1] Haarnoja, Tuomas, et al. "Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor." International Conference on Machine Learning. PMLR, 2018.

[2] Bhatt, Aditya, et al. "CrossQ: Batch Normalization in Deep Reinforcement Learning for Greater Sample Efficiency and Simplicity." The Twelfth International Conference on Learning Representations, 2024.

[3] Ball, Philip J., et al. "Efficient online reinforcement learning with offline data." International Conference on Machine Learning. PMLR, 2023.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.