<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      告別專家依賴,讓機器人學會自我參考,僅需200步性能飆升至99.2%

      0
      分享至



      費森俞,上海創智學院 & 同濟大學博士一年級學生,導師趙憲忠教授,研究方向為 VLA 強化學習后訓練。王思尹,上海創智學院 & 復旦大學博士二年級學生,導師邱錫鵬教授,研究方向為多模態具身智能。為本文共同第一作者。

      龔經經,上海創智學院全時導師。邱錫鵬,復旦大學教授,上海創智學院全時導師。為本文共同通訊作者。

      你是否想過,機器人也能像人一樣,從失敗中學習,不斷自我提升

      當前,視覺語言動作(VLA)模型在機器人操作任務中表現出色,但其性能嚴重依賴專家示范數據,不僅成本高昂,還存在「示范偏差」,性能難以突破人類上限。而強化學習雖好,卻常因「獎勵稀疏」問題,讓機器人無法從失敗中真正受益。





      • 論文鏈接:https://arxiv.org/pdf/2511.15605
      • 代碼倉庫:https://github.com/sii-research/siiRL
      • 技術文檔:https://siirl.readthedocs.io/en/latest/examples/embodied_srpo_example.html

      動機與貢獻

      近期研究表明,強化學習作為一種有效的后訓練策略,能顯著提升 VLA 模型在分布內與分布外的性能。在強化學習方法中,基于組優化的方法(如 GRPO)因其簡潔高效的學習范式,已成為 VLA-RL 的重要技術路徑,但其仍面臨獎勵信號稀疏的挑戰。該問題在 VLA 領域尤為突出:多輪軌跡推理的計算成本極高,對失敗軌跡信息的低效利用嚴重降低了訓練效率。雖有研究嘗試通過過程監督提供密集反饋,但這些方法通常依賴專家示范或人工任務分解來定義中間進展,其固有的擴展性局限與自主學習目標存在根本矛盾。



      圖 1:GRPO 等方法僅依賴稀疏的結果獎勵,學習信號有限;手動設計的過程獎勵(PRM)需要成本高昂的外部示范或任務微調;而 SRPO 框架提出了自參考范式,有效利用失敗軌跡。

      為應對獎勵稀疏挑戰,我們提出自我參考學習范式,以模型自身生成的成功軌跡作為參照標準,評估并引導失敗嘗試。與 GRPO 僅利用結果性獎勵進行優勢估計不同,我們的方法能更高效地利用完整軌跡批,這一范式將監督問題的核心從「如何獲取專家標簽」轉變為「如何從自身成功經驗中提取漸進式獎勵」。

      該范式的核心挑戰在于如何量化成功與失敗軌跡之間的行為相似性,以評估任務完成進度。傳統像素級世界模型存在跨領域泛化能力不足或需要大量任務特定微調的問題,我們發現潛在世界表征天然捕捉了跨環境可遷移的行為進展模式,使得無需精確環境重建或領域特定訓練即可實現魯棒的軌跡比較。

      基于以上洞察,我們提出自參考策略優化(SRPO),貢獻主要包括以下三方面:

      1. 提出 SRPO 框架,通過利用模型生成的成功軌跡為失敗嘗試提供漸進式獎勵,緩解獎勵稀疏性問題,消除對專家示范或任務特定工程的依賴。

      2. 提出基于潛在世界表征的漸進式獎勵方法,克服傳統像素級世界模型的泛化局限與領域特定訓練需求。

      3. 實驗結果表明,我們的方法在 LIBERO 基準測試中達到 SOTA 性能,在 LIBERO-Plus 上展現出強大泛化能力,并驗證了獎勵建模的真機可遷移性。

      技術方案

      如圖 2 所示,SRPO 通過一種「向成功者學習」的直觀方式,幫助機器人智能體在復雜任務中更有效地學習。該方案主要包含如下核心環節:



      圖 2: 策略推理過程產生的軌跡被收集到動態參考集中,行為相似性被建模為潛在世界空間中的軌跡距離,以此算出的漸進式獎勵在 KL 正則化的約束下用于優勢估計和策略優化。

      1. 同策略軌跡收集:每次策略更新后,模型將推理時產生的所有軌跡數據存入動態參考集,并根據任務完成情況劃分為「成功」與「失敗」兩組。

      2. 世界表征提取與聚類:SRPO 將參考集中的每條軌跡都編碼到世界模型的潛在表征空間中,該表征可以理解為對整個任務過程的濃縮概括,包含物理世界的本質規律。值得注意的是,這種表征完全基于對原始觀測的直接建模,不依賴于人類發明的「語言」或「符號」作為中介。

      3. 漸進式獎勵及策略更新:對于參考集中的成功軌跡,SRPO 計算其表征聚類中心作為典型成功范式,通過計算每條失敗軌跡到最近典型成功表征的距離來作為進度度量,距離越大說明與成功越遠,即進度越低,通過批次歸一化將距離變為 0 到 1 之間的連續漸進式獎勵,進而使用 PPO 式的目標函數更新策略。

      問題建模





      世界進展獎勵模型







      自參考策略優化



      優化目標:采用 PPO 風格的裁剪目標函數,并添加 KL 散度正則項以保持策略穩定性:





      實驗結果

      僅用 200 步強化學習,成功率從 48.9% 飆升至 99.2%

      表 1 表明,SRPO 僅憑第三視角圖像與語言指令,不僅優于依賴 0/1 獎勵的 SimpleVLA-RL、RLinf 等強化學習基線,也超越了需要人工設計階段獎勵的 TGRPO 等方案,超越多個依賴腕部視角、本體感知、3D 輸入的復雜模型,突顯 SRPO 在信息利用上的高效性。



      表 1: SRPO 僅通過第三視角觀測,在 LIBERO 上取得了 SOTA 性能。策略輸入符號說明:T (第三視角),I (語言指令),P (本體數據),W (腕部視角),D (深度)。

      泛化能力實測:一舉超越 15w 步監督學習基線

      表 2 表明,在更具挑戰的 LIBERO-Plus 泛化測試中,SRPO 帶來的性能提升高達 167%。即便未使用任何泛化場景數據進行訓練,僅通過 SRPO 自身的探索學習,泛化性能仍然超越 SFT 模型。



      表 2: SRPO 在 LIBERO-Plus 泛化性測試基準上的表現顯著優于其基線。

      獎勵信號:物理世界的「內行視角」

      圖 3 中,我們以「將馬克杯放進微波爐并關門」(兩階段時序任務,仿真環境)和收拾桌面(五個重復性「抓取 - 放置」任務,真實環境)兩個典型任務為例,展示 SRPO 在獎勵構建上的優勢:相較于易受視覺干擾,無法反映真實進度的像素級方法,或缺乏物理規律理解,獎勵波動劇烈的通用視覺模型,我們的獎勵曲線平滑、單調,符合物理世界進展規律



      圖 3: 仿真環境 (a-c) 和真實環境 (d-f) 中漸進式獎勵對比圖。

      效率優勢顯著

      效率方面,在圖 4 中,對于 LIBERO 長時序任務,初始模型 One-shot SFT 成功率僅 17.3%,SRPO 僅用 219 步即提升至 98.6%,相比同期 GRPO,性能提升 15.3%,相較 150k 步的 full-shot SFT 模型性能提升 12.9%。



      圖 4: SRPO 與 GRPO 的訓練效率比較。

      獎勵建模真機實測





      圖 5: 相較于 SFT 基線,SRPO 獎勵構建方法在真實世界任務上成功率有顯著提升。

      激發創造性:讓機器人學會「自主尋路」

      此外,我們發現 SRPO 訓練后,模型能夠自主探索出多種專家軌跡中不存在的新路徑與抓取姿態,如圖 6 所示。說明 SRPO 不僅能提升成功率,更能激發機器人超越示范、自主探索新的解決策略。



      圖 6: 模型推理過程中末端執行器軌跡記錄圖。



      我們發現,SRPO 是其零成本的代替方案,是一個「免費的午餐」





      結語

      告別昂貴的數據標注和復雜的獎勵設計,SRPO 僅憑模型自身的成功經驗與物理世界常識,即可實現性能躍遷。無需訓練價值模型,無需人工獎勵工程,無需密集專家示范,SRPO 實現了讓機器人從「模仿」走向「創造」,從「依賴」走向「自主」,為 VLA 強化學習開辟了一條充滿希望的新路徑。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      警察與公務員職級對照一覽表(建議收藏)

      警察與公務員職級對照一覽表(建議收藏)

      微法官
      2025-12-16 21:09:19
      太離譜了!楊鳴被驅逐原因曝光,揮拳捶打裁判臀部,離場口吐芬芳

      太離譜了!楊鳴被驅逐原因曝光,揮拳捶打裁判臀部,離場口吐芬芳

      宗介說體育
      2025-12-18 11:30:33
      純電生死戰,打掉理想千億市值

      純電生死戰,打掉理想千億市值

      市值榜
      2025-12-16 13:11:59
      知情人士:戴琳基本上把身邊能借的人都問了,被借的錢基本都打水漂了

      知情人士:戴琳基本上把身邊能借的人都問了,被借的錢基本都打水漂了

      懂球帝
      2025-12-16 19:09:07
      美國最頂級戰略家,為何集體錯判中國?他們漏算了一個隱藏變量

      美國最頂級戰略家,為何集體錯判中國?他們漏算了一個隱藏變量

      遠方風林
      2025-12-18 23:47:18
      高市早苗連續2天喊話中國,承認自己該反思,希望與中方高層對話

      高市早苗連續2天喊話中國,承認自己該反思,希望與中方高層對話

      南宮一二
      2025-12-18 13:20:50
      1933年胡適寫的抗戰碑文,沒有華麗詞藻,卻讀哭無數中國人!

      1933年胡適寫的抗戰碑文,沒有華麗詞藻,卻讀哭無數中國人!

      觸摸史跡
      2025-12-17 17:05:18
      人老了,不管子女孝順與否,都難避開8個養老真相,看到就是賺到

      人老了,不管子女孝順與否,都難避開8個養老真相,看到就是賺到

      情感大使館
      2025-11-27 10:33:06
      哈登要走了!快船正在考慮交易哈登,森林狼火箭等球隊有意

      哈登要走了!快船正在考慮交易哈登,森林狼火箭等球隊有意

      湖人侃球師
      2025-12-19 07:46:36
      看西班牙王后穿大衣,我悟了:裙過膝,衣不花哨不緊身,高級顯貴

      看西班牙王后穿大衣,我悟了:裙過膝,衣不花哨不緊身,高級顯貴

      八分搭配
      2025-11-30 00:06:13
      “風水輪流轉”,細扒香港“四大天王”現狀,才發現黎明有多清醒

      “風水輪流轉”,細扒香港“四大天王”現狀,才發現黎明有多清醒

      豐譚筆錄
      2025-12-18 11:08:35
      因愛潑斯坦檔案,FBI二把手上任9個月宣布辭職!特朗普:他想回去做節目了

      因愛潑斯坦檔案,FBI二把手上任9個月宣布辭職!特朗普:他想回去做節目了

      紅星新聞
      2025-12-18 19:13:18
      家政正面開撕張凱毅,克扣阿姨4000元工資,打碎一個勺子扣1200

      家政正面開撕張凱毅,克扣阿姨4000元工資,打碎一個勺子扣1200

      小海娛計
      2025-12-18 20:33:08
      1995年智利女部長訪華,竟點名要“借”走一個中國警察,幫他們破解埋藏22年的驚天白骨案!

      1995年智利女部長訪華,竟點名要“借”走一個中國警察,幫他們破解埋藏22年的驚天白骨案!

      歷史回憶室
      2025-12-12 18:17:10
      果不其然,柬埔寨變天了!總理洪瑪奈突然宣布加大與美國全面合作

      果不其然,柬埔寨變天了!總理洪瑪奈突然宣布加大與美國全面合作

      春秋論娛
      2025-12-19 07:06:37
      魯能中衛補強可嘗試引進大牌內援!球迷看好這兩人入隊,值得期待

      魯能中衛補強可嘗試引進大牌內援!球迷看好這兩人入隊,值得期待

      振剛說足球
      2025-12-19 09:28:16
      王曼昱拿下香港總決賽女單冠軍,

      王曼昱拿下香港總決賽女單冠軍,

      小光侃娛樂
      2025-12-19 09:35:09
      向太曝李連杰財產狀況!熱戀期想不上交資產,利智當場翻臉提分手

      向太曝李連杰財產狀況!熱戀期想不上交資產,利智當場翻臉提分手

      小咪侃娛圈
      2025-12-19 09:28:36
      潛伏美國37年,暗中保護錢學森回國,他是建國后的第一特工!

      潛伏美國37年,暗中保護錢學森回國,他是建國后的第一特工!

      史之銘
      2025-12-17 17:44:32
      175:2!聯合國大會投票結果公布,美國反對無效,特朗普失聲

      175:2!聯合國大會投票結果公布,美國反對無效,特朗普失聲

      蕭鮖記錄風土人情
      2025-12-19 07:59:24
      2025-12-19 10:32:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11952文章數 142513關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽總決賽收官

      頭條要聞

      媒體:南博受贈名畫被鑒偽后撥給文物店 以6800元售出

      頭條要聞

      媒體:南博受贈名畫被鑒偽后撥給文物店 以6800元售出

      體育要聞

      紐約尼克斯,板正的球隊

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      健康
      藝術
      旅游
      教育
      軍事航空

      這些新療法,讓化療不再那么痛苦

      藝術要聞

      馬世曉書法技藝引爭議,筆力柔弱令人難以理解。

      旅游要聞

      番茄小鎮的歡樂與承諾(旅人心語)

      教育要聞

      教育部發文嚴控考試,網友:怎么又雙叒來?

      軍事要聞

      福建艦入列后首過臺海 臺方談為何"甲板上沒有艦載機"

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲人妻.com| 乱女伦露脸对白在线播放| 久久久亚洲色| 亚洲AV无码东方伊甸园| www.yw尤物| 欧美人精品人妻在线| 人妻?无码?中出| 国产成人a亚洲精品久久久久| 久久久无码精品午夜| 午夜dj在线观看免费视频| 色8久久人人97超碰香蕉987 | 麻豆一区二区中文字幕| 污污内射在线观看一区二区少妇| 亚洲无码成人| 欧美精品中文字幕亚洲专区| 欧美成人h精品网站| 亚洲AV无码一区东京热久久| 日韩无码一卡| 草草影院发布页| 丁香花成人电影| 91在线综合| 国产午夜三级一区二区三| 无码国产精品一区二区免费式直播| 久久88香港三级台湾三级播放| 中文字幕av久久爽一区| 久久久国产乱子伦精品作者| 久久国产精品免费一区二区三区| 91豆花成人社区在线| 一本色道无码DVD道色| 浓毛老太交欧美老妇热爱乱| 色一情一乱一乱一区99av白浆 | 伊人欧美在线| 欧美3p视频| 天美传媒一区二区| 国产精品国产主播在线观看| 亚洲黑人av| 日韩变态另类| 精品国内自产拍在线观看视频| 狠狠v日韩v欧美v| 国产97在线?|?日韩| 极品少妇被猛得白浆直流草莓视频 |