<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      RLinf-USER發(fā)布!別再用仿真,真實(shí)世界訓(xùn)練也能極致效率與系統(tǒng)化

      0
      分享至



      機(jī)器之心發(fā)布

      核心速覽:

      • 首個(gè)統(tǒng)一系統(tǒng):將物理機(jī)器人提升為與 GPU 同等的計(jì)算資源,打破硬件隔閡。
      • ??極致效率:全異步架構(gòu)將真實(shí)世界訓(xùn)練吞吐量提升5.7 倍
      • 異構(gòu)協(xié)同:讓不同品牌、不同構(gòu)型的機(jī)器人(如 Franka + ARX)在同一模型下協(xié)同進(jìn)化。
      • 大模型支持:原生支持 VLA(如 PI0)的云邊端在線微調(diào)。



      • Code: https://github.com/RLinf/RLinf
      • 論文鏈接:https://arxiv.org/abs/2602.07837

      01. 背景:當(dāng) AI 撞上物理世界的墻

      在具身智能的浪潮中,我們已經(jīng)見證了仿真訓(xùn)練的巨大成功。然而,當(dāng)我們?cè)噲D將智能帶入真實(shí)世界時(shí),卻撞上了一堵看不見的墻:

      • 時(shí)間無法加速:物理世界沒有 100 倍速的快進(jìn)鍵,數(shù)據(jù)采集極其昂貴。
      • 系統(tǒng)支離破碎:訓(xùn)練在云端,控制在邊緣,中間隔著不穩(wěn)定的網(wǎng)絡(luò);機(jī)器人被視為難以管理的 “外設(shè)”,而非計(jì)算資源。
      • 數(shù)據(jù)稍縱即逝:一旦發(fā)生故障或網(wǎng)絡(luò)中斷,昂貴的長(zhǎng)序列數(shù)據(jù)往往付諸東流。

      真實(shí)世界的策略學(xué)習(xí)(Real-World Policy Learning),不僅是算法的挑戰(zhàn),更是系統(tǒng)的挑戰(zhàn)。

      今天,我們正式介紹RLinf-USER—— 一個(gè)專為真實(shí)世界在線策略學(xué)習(xí)打造的統(tǒng)一且可擴(kuò)展的系統(tǒng)。它不只是一個(gè)訓(xùn)練框架,更是連接數(shù)字大腦與物理軀體的 “神經(jīng)系統(tǒng)”,是實(shí)現(xiàn)千臺(tái)機(jī)器人物理世界策略進(jìn)化的關(guān)鍵一環(huán)。

      02. RLinf-USER 是什么?

      RLinf-USER (Unified and ExtensibleSystEm forReal-World Online Policy Learning) 是基于 RLinf 基礎(chǔ)設(shè)施構(gòu)建的專用系統(tǒng)。它的核心理念只有一個(gè):將物理世界的復(fù)雜性,封裝為簡(jiǎn)潔的計(jì)算流。



      圖 1 RLinf-USER 是基于 RLinf 構(gòu)建的真機(jī)強(qiáng)化學(xué)習(xí)專用系統(tǒng)

      系統(tǒng)設(shè)計(jì):

      設(shè)計(jì) 1. 機(jī)器人即計(jì)算 (Robot as Compute)

      RLinf 首次提出 “像使用 GPU 一樣使用機(jī)器人” 的概念。在 RLinf-USER 中,機(jī)器人不再是游離于集群之外的 “設(shè)備”。通過統(tǒng)一硬件抽象層 (HAL),物理機(jī)器人被虛擬化為與 GPU/TPU 同等的可調(diào)度資源。

      • 自動(dòng)發(fā)現(xiàn):像插上顯卡一樣,系統(tǒng)自動(dòng)識(shí)別接入的機(jī)器人。
      • 統(tǒng)一調(diào)度:無論是 7 自由度的機(jī)械臂,還是 4090 顯卡,都在同一個(gè)資源池中被統(tǒng)一編排。

      設(shè)計(jì) 2. 云邊端無縫協(xié)同 (Adaptive Cloud-Edge Link)

      大模型在云端,機(jī)器人在邊緣。RLinf-USER 構(gòu)建了一個(gè)自適應(yīng)通信平面:

      • 隧道穿透:無論機(jī)器人身處防火墻后還是復(fù)雜內(nèi)網(wǎng)中,隧道技術(shù)都能建立直達(dá)云端的專線。
      • 流量本地化:智能的分布式數(shù)據(jù)通道,只傳輸必要的訓(xùn)練樣本,將海量原始觀測(cè)數(shù)據(jù)截流在邊緣,無懼帶寬瓶頸。



      圖 2 RLinf-USER 系統(tǒng)設(shè)計(jì)總覽:統(tǒng)一硬件抽象層與自適應(yīng)通信平面

      學(xué)習(xí)框架設(shè)計(jì):



      圖 3 RLinf-USER 學(xué)習(xí)框架設(shè)計(jì)總覽

      ?? 設(shè)計(jì) 3. 全異步進(jìn)化引擎 (Fully Asynchronous Pipeline)

      真實(shí)世界不能等待。傳統(tǒng)的 “采集 - 訓(xùn)練” 同步循環(huán)會(huì)讓機(jī)器人把大量時(shí)間浪費(fèi)在等待計(jì)算上。

      RLinf-USER 采用了全異步流水線設(shè)計(jì)

      • 永不停歇:機(jī)器人在持續(xù)工作,GPU 在持續(xù)計(jì)算,網(wǎng)絡(luò)在持續(xù)更新。三個(gè)進(jìn)程完全解耦,互不等待。
      • 極致吞吐:在 VLA 模型訓(xùn)練中,這種設(shè)計(jì)將整體吞吐量提升了5.70 倍!這意味著在同樣的物理時(shí)間內(nèi),你的機(jī)器人能多學(xué) 5 倍的經(jīng)驗(yàn)。



      圖 4 全異步流水線

      設(shè)計(jì) 4. 數(shù)據(jù)的 “時(shí)光機(jī)” (Persistent-Cache-Aware Buffer)

      我們?cè)O(shè)計(jì)了持久化緩存感知緩沖區(qū):

      • 無限記憶:打破內(nèi)存限制,支持 TB 級(jí)甚至 PB 級(jí)的歷史軌跡存儲(chǔ)。
      • 崩潰恢復(fù):即使實(shí)驗(yàn)意外中斷,數(shù)據(jù)和狀態(tài)也能毫發(fā)無損,支持長(zhǎng)達(dá)數(shù)周的連續(xù)訓(xùn)練。



      圖 5 持久化緩存感知 buffer

      設(shè)計(jì) 5. 豐富的在線學(xué)習(xí)組件支持

      USER 在統(tǒng)一的接口下,支持了多樣的學(xué)習(xí)組件,模塊化的設(shè)計(jì)易于二次開發(fā):

      • 模型支持:CNN model,F(xiàn)low matching model,VLA(如 PI0)
      • 算法支持:強(qiáng)化學(xué)習(xí)(如 SAC、SAC Flow)、模仿學(xué)習(xí)(如 HG-DAgger)
      • 獎(jiǎng)勵(lì)函數(shù)支持:規(guī)則獎(jiǎng)勵(lì)、人工獎(jiǎng)勵(lì)、獎(jiǎng)勵(lì)模型

      03. 硬核實(shí)戰(zhàn):它能做到什么?

      RLinf-USER 在 5 個(gè)真實(shí)任務(wù)中證明了效率和性能。



      圖 6 在 5 個(gè)真實(shí)世界任務(wù)上驗(yàn)證 USER,對(duì)應(yīng)不同的 reward、算法、策略

      戰(zhàn)績(jī)一:VLA 大模型的在線進(jìn)化

      這是目前少有的支持3B 參數(shù) VLA 模型(PI0)在真實(shí)世界進(jìn)行在線微調(diào)的系統(tǒng)。

      • 任務(wù):桌面清理(Table Clean-up)—— 一個(gè)包含分類、抓取、放置、關(guān)蓋的長(zhǎng)序列任務(wù)。
      • 結(jié)果:通過 HG-DAgger 算法,模型成功率從45%飆升至80%。隨著訓(xùn)練進(jìn)行,人工干預(yù)次數(shù)顯著下降,機(jī)器人逐漸學(xué)會(huì)了獨(dú)立思考。





      圖 7 USER 框架使用 HG-DAgger 算法微調(diào) PI0 模型。人工干預(yù)次數(shù)顯著下降,成功率從 45%->80%

      戰(zhàn)績(jī)二:異構(gòu)機(jī)器人 “大一統(tǒng)”

      RLinf-USER 完成了一項(xiàng)極具挑戰(zhàn)的實(shí)驗(yàn):讓兩種完全不同的機(jī)器人一起學(xué)習(xí)。

      • 組合:高端的7-DoF Franka機(jī)械臂 + 低成本的6-DoF ARX機(jī)械臂。
      • 效果:盡管它們的構(gòu)型、關(guān)節(jié)數(shù)、攝像頭參數(shù)截然不同,但在 USER 的統(tǒng)一抽象下,它們共同為一個(gè)策略貢獻(xiàn)數(shù)據(jù)。最終,同一個(gè)模型學(xué)會(huì)了控制這兩種截然不同的 “身體”。





      圖 8 使用 USER 進(jìn)行異構(gòu)訓(xùn)練

      ?? 戰(zhàn)績(jī)?nèi)嚎缭角Ю锏?“云 - 邊” 協(xié)同

      針對(duì)大模型訓(xùn)練算力在云端、機(jī)器人執(zhí)行在邊緣端的典型場(chǎng)景,RLinf-USER 克服了物理距離和網(wǎng)絡(luò)隔離的障礙。

      • 挑戰(zhàn):訓(xùn)練節(jié)點(diǎn)位于北京(云端),而機(jī)器人和推理節(jié)點(diǎn)位于數(shù)千公里外的深圳(邊緣端),中間隔著高延遲、帶寬受限且復(fù)雜的公網(wǎng)環(huán)境。
      • 效果:得益于 USER 的隧道網(wǎng)絡(luò)技術(shù)(Tunneling-based Networking)和分布式數(shù)據(jù)通道,跨域通信的效率大幅提升。實(shí)驗(yàn)數(shù)據(jù)顯示,在跨域部署下,單集(Episode)數(shù)據(jù)的生成時(shí)間縮短了約3 倍(從~69 秒 降至~22 秒),實(shí)現(xiàn)了如同在局域網(wǎng)般流暢的遠(yuǎn)程分布式訓(xùn)練。



      圖 9 USER 自適應(yīng)通信平面顯著降低了跨域部署的通信延遲

      ?? 戰(zhàn)績(jī)四:異步 vs 同步架構(gòu)速度的碾壓

      在經(jīng)典的插孔(Peg Insertion)任務(wù)中:

      • 傳統(tǒng)同步架構(gòu):收斂需要 8000+ 秒。
      • RLinf-USER:收斂?jī)H需約 1500 秒。

      效率提升超過 5 倍,讓原本漫長(zhǎng)的訓(xùn)練過程變得立等可取。



      圖 10 USER 的全異步工作流顯著提升了物理世界中算法的收斂速度

      戰(zhàn)績(jī)五:打破 “內(nèi)存墻”,數(shù)據(jù)的無限記憶與極速吞吐

      在真實(shí)世界長(zhǎng)周期(Long-horizon)的訓(xùn)練中,數(shù)據(jù)是極其寶貴的資產(chǎn)。針對(duì)傳統(tǒng) Buffer “存不下” 或 “讀得慢” 的痛點(diǎn),RLinf-USER 拒絕妥協(xié)。

      • 機(jī)制:RLinf-USER 獨(dú)創(chuàng)了持久化緩存感知 Buffer (Persistent-Cache-Aware Buffer),通過智能索引機(jī)制,將海量歷史數(shù)據(jù)異步落盤,同時(shí)在內(nèi)存中保留高頻熱點(diǎn)數(shù)據(jù)(Cache)。
      • 效果:這是一個(gè) “魚和熊掌兼得” 的方案。實(shí)驗(yàn)評(píng)測(cè)顯示,RLinf-USER 在提供磁盤級(jí) “無限” 容量(支持 TB 級(jí)歷史數(shù)據(jù)回溯)的同時(shí),實(shí)現(xiàn)了顯著優(yōu)于純磁盤存儲(chǔ)的采樣吞吐量。同樣關(guān)鍵的是,它自帶崩潰恢復(fù)能力,即使實(shí)驗(yàn)因故障意外中斷,長(zhǎng)期積累的寶貴數(shù)據(jù)也能毫發(fā)無損,隨時(shí)重啟 “再戰(zhàn)”。



      圖 11 RLinf-USER 的 Buffer 在不同配置下的吞吐量性能測(cè)試,平衡了容量與效率

      04. 為什么選擇 RLinf-USER?

      如果說 ChatGPT 是 AI 在數(shù)字世界的里程碑,那么 RLinf-USER 致力于成為具身智能在物理世界的基石。

      如果你是研究者:它兼容 CNN、Flow-based policy、VLA 等多種策略,支持 RL、IL、Human-in-the-loop 等各種算法。它將模型、算法等模塊解耦,簡(jiǎn)化開發(fā)難度。

      如果你是工程師:它提供了工業(yè)級(jí)的穩(wěn)定性(崩潰恢復(fù))和擴(kuò)展性(自動(dòng)硬件發(fā)現(xiàn)),讓大規(guī)模機(jī)器人集群管理變得像管理服務(wù)器一樣簡(jiǎn)單。

      此時(shí)此刻,機(jī)器人不再只是外設(shè)。RLinf-USER,讓智能真正 “具身”。



      視頻鏈接:https://mp.weixin.qq.com/s/4iPmPYghEzbWZeyO9jlD5w

      RLinf 發(fā)布半年,Github Star 2.5k+,得到了學(xué)術(shù)界和工業(yè)界的廣泛認(rèn)可,達(dá)成了多項(xiàng)戰(zhàn)略合作,包括英偉達(dá) IssacLab、原力靈機(jī) Dexbotic 等,更多家合作官宣也會(huì)盡快和大家見面。道阻且長(zhǎng),26 年 RLinf 仍在為搭建更好的具身智能基礎(chǔ)設(shè)施而努力,并持續(xù)做好可復(fù)現(xiàn)生態(tài)。團(tuán)隊(duì)也開放招生和招聘,歡迎大家聯(lián)系于超老師(郵件:zoeyuchao@gmail.com)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場(chǎng)“社死”

      回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場(chǎng)“社死”

      就一點(diǎn)
      2025-10-09 12:19:42
      我國一共有六座軍事監(jiān)獄,分布于五大戰(zhàn)區(qū),由武警部隊(duì)負(fù)責(zé)管理

      我國一共有六座軍事監(jiān)獄,分布于五大戰(zhàn)區(qū),由武警部隊(duì)負(fù)責(zé)管理

      咸魚金腦袋
      2026-02-17 12:44:54
      得知美國向日本扔了原子彈,全延安都在慶祝,毛主席卻氣得拍了桌子:這是原則錯(cuò)誤!

      得知美國向日本扔了原子彈,全延安都在慶祝,毛主席卻氣得拍了桌子:這是原則錯(cuò)誤!

      史海殘?jiān)?/span>
      2025-12-27 19:15:21
      重磅!維特科夫:澤連斯基、普京、特朗普將進(jìn)行三方會(huì)面!

      重磅!維特科夫:澤連斯基、普京、特朗普將進(jìn)行三方會(huì)面!

      老馬拉車莫少裝
      2026-02-22 21:37:51
      明晚開播!中央1套黃金檔好劇來襲!陣容強(qiáng)大 劇王潛質(zhì),開播必火

      明晚開播!中央1套黃金檔好劇來襲!陣容強(qiáng)大 劇王潛質(zhì),開播必火

      小娛樂悠悠
      2026-02-22 12:47:30
      獵殺中國預(yù)警機(jī)?AGM-88G導(dǎo)彈300千米試射成功,紅旗-9也攔不住?

      獵殺中國預(yù)警機(jī)?AGM-88G導(dǎo)彈300千米試射成功,紅旗-9也攔不???

      荷蘭豆愛健康
      2026-02-23 01:01:37
      再見,皇馬!6000萬“兩大廢柴”正式遭驅(qū)逐!批準(zhǔn)簽約7500萬中鋒

      再見,皇馬!6000萬“兩大廢柴”正式遭驅(qū)逐!批準(zhǔn)簽約7500萬中鋒

      頭狼追球
      2026-02-22 10:55:47
      哲凱賴什:像今天這樣頻繁參與進(jìn)攻,對(duì)我的發(fā)揮很有幫助

      哲凱賴什:像今天這樣頻繁參與進(jìn)攻,對(duì)我的發(fā)揮很有幫助

      懂球帝
      2026-02-23 03:34:55
      谷愛凌淚灑發(fā)布會(huì),奪冠后得知外婆去世:出發(fā)之前,她已經(jīng)病得很重了,沒有向她保證我一定會(huì)贏,但我會(huì)和你一樣勇敢

      谷愛凌淚灑發(fā)布會(huì),奪冠后得知外婆去世:出發(fā)之前,她已經(jīng)病得很重了,沒有向她保證我一定會(huì)贏,但我會(huì)和你一樣勇敢

      揚(yáng)子晚報(bào)
      2026-02-22 23:31:20
      當(dāng)利潤(rùn)跌破4%,一場(chǎng)比新車更慘烈的戰(zhàn)爭(zhēng)開始了

      當(dāng)利潤(rùn)跌破4%,一場(chǎng)比新車更慘烈的戰(zhàn)爭(zhēng)開始了

      大佬灼見
      2026-02-20 09:03:49
      歐洲小偷,都傳瘋了,達(dá)成了一個(gè)行業(yè)共識(shí),中國人的錢包,隨便拿

      歐洲小偷,都傳瘋了,達(dá)成了一個(gè)行業(yè)共識(shí),中國人的錢包,隨便拿

      西樓知趣雜談
      2026-02-14 18:35:51
      羅體:橫條紋球衣是丑陋的,這支尤文連平庸的表現(xiàn)都難以維持

      羅體:橫條紋球衣是丑陋的,這支尤文連平庸的表現(xiàn)都難以維持

      懂球帝
      2026-02-22 20:09:06
      第一集就很狗血,網(wǎng)飛新劇又爆了

      第一集就很狗血,網(wǎng)飛新劇又爆了

      i書與房
      2026-02-22 19:20:04
      心臟決定壽命,建議中老年人別太節(jié)儉,常吃3樣,身強(qiáng)體壯更長(zhǎng)壽

      心臟決定壽命,建議中老年人別太節(jié)儉,常吃3樣,身強(qiáng)體壯更長(zhǎng)壽

      江江食研社
      2026-02-10 20:30:07
      生姜立大功?美國研究發(fā)現(xiàn):生姜可在48小時(shí)內(nèi)清除50%老化細(xì)胞?

      生姜立大功?美國研究發(fā)現(xiàn):生姜可在48小時(shí)內(nèi)清除50%老化細(xì)胞?

      39健康網(wǎng)
      2026-02-11 09:11:33
      美國空軍交付全球首臺(tái)5兆瓦微型核反應(yīng)堆

      美國空軍交付全球首臺(tái)5兆瓦微型核反應(yīng)堆

      cnBeta.COM
      2026-02-22 07:34:18
      0-1,失點(diǎn)+少一人+第90分鐘遭絕殺,狼隊(duì)不敵英超第13,3場(chǎng)不敗終結(jié)

      0-1,失點(diǎn)+少一人+第90分鐘遭絕殺,狼隊(duì)不敵英超第13,3場(chǎng)不敗終結(jié)

      凌空倒鉤
      2026-02-23 00:14:25
      局勢(shì)惡化,中國外交官三箭齊發(fā),日本已通知撤人,為臺(tái)海戰(zhàn)事鋪路

      局勢(shì)惡化,中國外交官三箭齊發(fā),日本已通知撤人,為臺(tái)海戰(zhàn)事鋪路

      手里有讀
      2026-02-20 10:16:22
      競(jìng)爭(zhēng)激烈!26賽季中超外援身價(jià)排名:浙江躋身前3,海牛倒一

      競(jìng)爭(zhēng)激烈!26賽季中超外援身價(jià)排名:浙江躋身前3,海牛倒一

      邱澤云
      2026-02-22 15:33:44
      美國宇航員“偷拍”春節(jié),400公里上空,拍下西方看不懂的文明

      美國宇航員“偷拍”春節(jié),400公里上空,拍下西方看不懂的文明

      明話直說
      2026-02-22 20:44:37
      2026-02-23 03:59:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12326文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發(fā)射超過10000顆衛(wèi)星

      頭條要聞

      男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細(xì)節(jié)披露

      頭條要聞

      男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細(xì)節(jié)披露

      體育要聞

      谷愛凌:6次參賽6次奪牌 我對(duì)自己非常自豪

      娛樂要聞

      谷愛凌:真正的強(qiáng)大 敢接納生命的節(jié)奏

      財(cái)經(jīng)要聞

      特朗普新加征關(guān)稅稅率從10%提升至15%

      汽車要聞

      續(xù)航1810km!smart精靈#6 EHD超級(jí)電混2026年上市

      態(tài)度原創(chuàng)

      家居
      數(shù)碼
      房產(chǎn)
      健康
      藝術(shù)

      家居要聞

      本真棲居 愛暖伴流年

      數(shù)碼要聞

      古爾曼:蘋果3月2 - 4日發(fā)布“至少五款產(chǎn)品”

      房產(chǎn)要聞

      窗前即地標(biāo)!獨(dú)占三亞灣C位 自貿(mào)港總裁行宮亮相

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      藝術(shù)要聞

      誰能想到,“餃子包”火了!還是韭菜雞蛋味兒,超吸睛!

      無障礙瀏覽 進(jìn)入關(guān)懷版