<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      全球強化學習+VLA范式,PI*0.6背后都有這家中國公司技術伏筆

      0
      分享至



      機器之心發布

      機器之心編輯部

      在 Physical Intelligence 最新的成果 π0.6 論文里,他們介紹了 π0.6 迭代式強化學習的思路來源:



      其中有我們熟悉的 Yuke Zhu 的研究,也有他們自己(Chelsea Finn、Sergey Levine)的一些研究,我們之前對這些工作一直有跟蹤和介紹。此外,還有來自國內具身智能團隊的工作,比如清華大學、星動紀元的研究。隨著 π*0.6 的發布,VLA+online RL 成為了一個行業共識的非常有前景的研究方向(深扒了Π*0.6的論文,發現它不止于真實世界強化學習、英偉達也來做VLA在真實世界自我改進的方法了)大語言模型從SFT到RL的發展方向也逐漸在具身研究中清晰明朗。

      一、為什么VLA+RL很重要



      圖注:VLA模型依賴研讀微調

      在具身智能(Embodied AI)領域,科學家們正在嘗試將強大的視覺-語言模型(VLM)應用到機器人的底層控制中,這就是所謂的VLA模型。通常,這些模型是通過模仿人類專家的示范數據(監督微調,SFT)來學習的。



      圖注:模仿學習的局限

      但是,僅靠模仿是不夠的。如果機器人遇到了從未見過的情況,或者專家數據不夠完美,機器人就會不知所措。

      而正如我們在深扒了Π*0.6的論文,發現它不止于真實世界強化學習所說的,模仿學習能讓機器人成功做出動作,但是讓它每次都成功是非常難的。如果想讓機器人非常魯棒、持久的工作,需要借助強化學習的力量。相較于離線強化學習通常受限于演示數據的質量,模型很難超越提供數據的專家,在線 RL 允許智能體通過試錯來發現更優解

      二、強化學習應用在VLA的三大難點?



      圖注:VLA RL的難點

      理論上,強化學習(RL)可以讓機器人通過與環境互動、試錯來持續進步,但是這其實不是一件容易的事情



      圖注:LLM和具身在RL上的區別

      將類似 GPT 這樣的大模型與強化學習結合(如 RLHF)在聊天機器人領域非常成功,但在控制物理機器人時卻困難重重:

      • 環境差異:聊天機器人是在離線數據集上訓練的,而機器人需要在物理世界中實時探索。物理任務通常周期長、獎勵稀疏(做完一整套動作才算成功),這使得學習非常困難。
      • 模型坍塌與不穩定性:研究發現,如果直接對巨大的 VLA 模型(數十億參數)進行在線強化學習,模型很容易出現“災難性遺忘”或訓練崩潰,導致性能甚至不如微調前。
      • 算力負擔:在本地機器上對幾十億參數的模型進行全量梯度的強化學習更新,對硬件要求極高,通常超出了本地機器人控制器的算力極限。

      三、星動紀元 iRe-VLA 最先突破 VLA 強化學習困境,也是 π*0.6 的引用來源

      對于VLA的強化學習困境,行業內其實有三種類型的解決方案:

      • 第一種:外掛式干預:一些嘗試不敢輕易觸碰龐大的 VLA 參數。比如V-GPS (Value-Guided Policy Steering)訓練一個通用的價值函數,在推理時,讓 VLA 生成多個候選動作,用價值函數對它們進行打分和重排序,選擇最好的動作執行;DSRL訓練一個小型的 RL 策略來優化擴散模型的輸入噪聲,通過改變輸入噪聲來“引導”凍結的 VLA 生成高價值動作。這種方法雖然安全,但 VLA沒有真正發生質變。
      • 第二種:暴力美學:VLAC為代表的工作嘗試直接用 PPO 等算法全量微調 VLA。雖然勇氣可嘉,但大模型在 RL 訓練中極易出現災難性遺忘和模型坍塌(Model Collapse),且對算力的要求很高。
      • 第三種是從探索到內化的循環。讓我們眼前一亮的是一篇以前沒有跟蹤過的,清華和UC Berkeley的《Improving Vision-Language-Action Model with Online Reinforcement Learning》(通過在線強化學習改進視覺-語言-動作模型),來自于清華大學助理教授、星動紀元創始人陳建宇老師組。星動紀元這項研究是全球最早將在線RL引入VLA的工作,在ICRA發表,π*0.6 也引用了該工作,是中美兩方在RL上的頂尖對話。

      這兩篇文章代表了第三種路徑。它們不再盲目地套用 RL 算法,而是利用監督微調(SFT)將 RL 探索出的高價值行為(成功軌跡或高優勢動作)穩定地內化為模型的原生能力。

      π*0.6 不在此詳細贅述。我們來看下 iRe-VLA。



      • 論文:Improving Vision-Language-Action Model with Online Reinforcement Learning
      • 論文鏈接:https://arxiv.org/abs/2501.16664

      iRe-VLA 的作者設計了一個兩階段循環迭代的學習流程。這個流程的核心思想是:分而治之,動靜結合。

      星動紀元:iRe-VLA 模型架構設計

      VLA 模型由兩部分組成:

      VLM 主干(大腦):使用預訓練的大型視覺-語言模型(如 BLIP-2),負責理解圖像和指令,擁有豐富的世界知識。

      Action Head(四肢):一個輕量級的動作輸出層(由 Token Learner 和 MLP 構成),負責將 VLM 的深層特征轉化為具體的機器人控制信號(如機械臂的移動、夾爪的開合)。

      為了提高效率,作者還使用了LoRA(低秩適應)技術,避免全量微調所有參數。



      圖注:模型架構

      核心流程:兩個階段的交替

      iRe-VLA 方法不是一次性訓練,而是在以下兩個階段中反復迭代:

      第一階段:在線強化學習(探索與發現)



      圖注:穩定探索

      在這個階段,機器人的目標是去試錯,探索如何完成新任務。

      • 凍結大腦(Freeze VLM):為了防止模型崩潰和減少計算量,作者凍結了巨大的 VLM 主干參數。
      • 只練四肢(Train Action Head):僅訓練輕量級的 Action Head。同時引入一個Critic Head(評價網絡)來輔助訓練。
      • 優勢:因為只更新很少的參數,訓練非常穩定,而且計算量很小,可以在本地機器(如單張 4090 顯卡)上高效運行。機器人通過不斷嘗試,找到了一些能夠成功完成任務的軌跡(Success Trajectories)。

      第二階段:監督學習(鞏固與內化)

      在第一階段,機器人可能只是碰巧學會了操作,為了讓這種能力真正融入模型,需要進行第二階段。



      圖注:融合與升華

      • 全模型微調:解凍 VLM 主干,對整個模型(包括 LoRA 參數)進行訓練。
      • 混合數據:訓練數據不僅包含第一階段探索到的新成功軌跡,還混合了原始的專家示范數據。
      • 優勢:這不僅利用了大模型的強大表達能力來記住新技能,還因為混合了舊數據,有效防止了災難性遺忘(即學會了新任務,忘了舊任務)。這一步計算量大,通常放在云端服務器(如 A100 集群)上進行。



      圖注:兩階段

      總結:機器人先在“小參數模式”下大膽探索(階段1),找到方法后,再在“全參數模式”下把經驗固化到大腦中(階段2),如此循環往復。



      圖注:循環往復

      三、 實驗結果與分析



      圖注:三種情況的實驗結果分析

      作者在仿真環境(MetaWorld, Franka Kitchen)和真實世界(Panda 機械臂)中進行了大量實驗,驗證了該方法的有效性。

      訓練穩定性對比

      實驗顯示,如果使用標準的 PPO 算法直接微調 VLA 模型,成功率曲線震蕩劇烈,甚至在很多任務上性能下降(變差了)。而 iRe-VLA 的曲線則穩步上升,證明了“分階段凍結參數”對于穩定訓練至關重要。



      圖注:曲線對比

      仿真環境表現



      圖注:仿真環境中具備壓倒性優勢

      MetaWorld & Franka Kitchen:在這些基準測試中,iRe-VLA 不僅在原本學過的任務上表現更好(例如從 43% 提升到 83%),還能通過在線探索學會完全沒見過的任務。

      對比 SFT:相比僅進行監督微調的模型,經過 iRe-VLA 迭代后的模型在所有任務類別(專家任務、RL 訓練任務、未見過的測試任務)上的成功率都有顯著提升。



      圖注:不同后訓練策略的對比

      真實世界挑戰(Real-World Panda)

      這是最令人印象深刻的部分。作者讓機器人去抓取它從未見過的物體(如形狀不規則的茄子、胡蘿卜)。



      圖注:真實世界的提升

      • 初始狀態:僅靠專家數據(SFT),機器人抓取這些新物體的成功率只有 35% 左右。
      • 訓練后:經過 iRe-VLA 的在線學習(利用 SACfD 算法提高樣本效率),抓取成功率飆升到了 80%。
      • 泛化能力:更有趣的是,訓練后的模型去抓取完全未參與訓練的第三類物體,成功率也從 37% 提升到了 61%。這說明通過強化學習,模型不僅學會了抓茄子,還變得更聰明、更通用了。



      圖注:實驗和成功率

      消融實驗:為什么要解凍 VLM?

      作者做了一個對比實驗:如果在第二階段依然凍結 VLM,只訓練 Action Head(即 iRe-VLA-freeze),效果如何?

      結果顯示,如果不解凍 VLM,模型的性能提升會遇到瓶頸。這證明了在第二階段解凍大模型參數是必要的,這樣才能利用大模型深層的特征表示能力來徹底掌握復雜技能,并提升泛化性。



      圖注:消融實驗

      四、 結論與意義

      這篇文章提出了一種切實可行的方案,解決了大模型在機器人控制中落地難的問題。

      • 穩定性:解決了大模型直接上 RL 容易訓崩的問題。
      • 經濟性:巧妙地分配了算力,讓本地機器人負責輕量級探索,云端服務器負責重量級消化,符合實際部署場景。
      • 持續學習:證明了機器人可以通過自我探索,在不遺忘舊技能的前提下,不斷掌握新物體和新任務的操作技能。



      圖注:該架構的優點

      國內的星動紀元的iRe-VLA 的基礎上,海外的PI π*0.6,都為我們揭示出了VLA在線強化學習技術的發展前景。這條路還有很多未盡的研究話題,比如如何高效探索與稀疏獎勵下的新技能學習,如何面向大規模 VLA 構造穩定可擴展 RL 算法等。

      未來發展,我們拭目以待。



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      外交部部長助理劉彬同烏克蘭第一副外長基斯利察舉行中烏外交部政治磋商

      外交部部長助理劉彬同烏克蘭第一副外長基斯利察舉行中烏外交部政治磋商

      界面新聞
      2025-12-18 23:28:57
      南京博物院盜賣文物,捐贈后人追查十年遭打碼“證據”糊弄,失蹤五件國寶還有多少黑幕

      南京博物院盜賣文物,捐贈后人追查十年遭打碼“證據”糊弄,失蹤五件國寶還有多少黑幕

      爆角追蹤
      2025-12-18 15:36:33
      一夜兩場大?。Z冠熱門慘遭3連敗,沈梓捷傷情出爐,北控遭重創

      一夜兩場大?。Z冠熱門慘遭3連敗,沈梓捷傷情出爐,北控遭重創

      老吳說體育
      2025-12-19 00:23:19
      炸裂!攜程簽約柬埔寨引發注銷潮,洪森疑似威脅曝光園區股東名單

      炸裂!攜程簽約柬埔寨引發注銷潮,洪森疑似威脅曝光園區股東名單

      胡嚴亂語
      2025-12-17 20:37:21
      南博盜賣國寶級文物!失蹤5件寶藏黑幕重重!新書記能否理舊賬?

      南博盜賣國寶級文物!失蹤5件寶藏黑幕重重!新書記能否理舊賬?

      大江看潮
      2025-12-18 21:39:11
      西藥見效快!中國三大運營商為美國解決詐騙電話,攔截率達99%

      西藥見效快!中國三大運營商為美國解決詐騙電話,攔截率達99%

      垛垛糖
      2025-12-18 12:16:13
      國企也開始爆雷了!

      國企也開始爆雷了!

      微微熱評
      2025-12-19 00:35:12
      國務院安委會辦公室對21個市級政府開展安全生產約談

      國務院安委會辦公室對21個市級政府開展安全生產約談

      界面新聞
      2025-12-18 14:41:59
      拿捏新加坡的手段來了,這次真的要給新加坡上強度了。

      拿捏新加坡的手段來了,這次真的要給新加坡上強度了。

      百態人間
      2025-12-12 16:02:11
      江蘇文旅廳調查南博藏品現身拍賣事件,龐萊臣后人不認可偽作說法

      江蘇文旅廳調查南博藏品現身拍賣事件,龐萊臣后人不認可偽作說法

      極目新聞
      2025-12-18 14:34:14
      杭州剛提新車就撞人后續:疑似被撞銷售不幸身亡,涉事司機麻煩了

      杭州剛提新車就撞人后續:疑似被撞銷售不幸身亡,涉事司機麻煩了

      漢史趣聞
      2025-12-18 11:38:12
      南京不少市民反映導航失靈?高德回應:信號干擾源導致定位異常

      南京不少市民反映導航失靈?高德回應:信號干擾源導致定位異常

      極目新聞
      2025-12-18 15:26:27
      30歲健美冠軍王昆意外猝死,深扒死因發現,他生前有3個致命習慣

      30歲健美冠軍王昆意外猝死,深扒死因發現,他生前有3個致命習慣

      法老不說教
      2025-12-18 19:20:30
      國防部:與柬泰邊境沖突無關,不要主觀臆測

      國防部:與柬泰邊境沖突無關,不要主觀臆測

      觀察者網
      2025-12-18 19:24:05
      確認:涉刑案!上海市中心,一西裝男子突然當街下跪:“對不起,我給你跪下了……”

      確認:涉刑案!上海市中心,一西裝男子突然當街下跪:“對不起,我給你跪下了……”

      環球網資訊
      2025-12-18 19:49:16
      公開婚紗照!知名女星宣布將于明年辦婚禮

      公開婚紗照!知名女星宣布將于明年辦婚禮

      深圳晚報
      2025-12-18 16:49:19
      國家統計局原局長邱曉華:很多人按揭買的房子,房子的價格已經比首付還要低!它給人帶來的心理沖擊是很大的

      國家統計局原局長邱曉華:很多人按揭買的房子,房子的價格已經比首付還要低!它給人帶來的心理沖擊是很大的

      和訊網
      2025-12-18 17:46:52
      海南封關之后當地網友吐槽物價變貴,油條7塊菠菜32一斤

      海南封關之后當地網友吐槽物價變貴,油條7塊菠菜32一斤

      映射生活的身影
      2025-12-18 22:03:06
      海南封關后,西門子能源燃機總裝基地開建

      海南封關后,西門子能源燃機總裝基地開建

      IT之家
      2025-12-18 20:53:09
      海南封關,越南是真急了!范明正:明年開始越南要建6-8個自貿區

      海南封關,越南是真急了!范明正:明年開始越南要建6-8個自貿區

      青青子衿
      2025-12-19 00:43:44
      2025-12-19 07:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11950文章數 142513關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽總決賽收官

      頭條要聞

      特朗普命令2028年登月 在月球部署核反應堆

      頭條要聞

      特朗普命令2028年登月 在月球部署核反應堆

      體育要聞

      紐約尼克斯,板正的球隊

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      藝術
      時尚
      教育
      本地
      游戲

      藝術要聞

      李苦禪寫菊,酣暢淋漓

      陳妍希這婚,離晚了

      教育要聞

      北交大2025轉專業政策大調整!零門檻+兩次機會

      本地新聞

      云游安徽|決戰烽火照古今,千秋一脈看宿州

      《巫火》仍堅持是單人游戲 沒有升級到虛幻5計劃

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品美女久久久免费| 定兴县| 精品综合久久久久久97| 欧美日韩变态| 刺激一区仑乱| 日本一卡二卡三卡四卡五卡六卡| 亚洲熟妇AV乱码在线观看| 成人午夜大片| 蜜臀av午夜精品福利| 97人妻成人免费视频| 天天躁日日躁人妻久久澡| 国产黄色免费看| 精品九九视频| 一本大道东京热无码aⅴ| 国产精品亚洲аv无码播放| 亚洲黄色无码| 97AV在线| 邵武市| 露脸国产精品自产拍在线观看| 日本免费一区二区三区高清视频| 色性AV| 国产深夜福利| 人妻丰满熟妇无码区免费 | 国产丝袜自拍| 天天躁狠狠躁狠狠躁夜夜躁| 成人1区2区| 91九色视频| 一个人看的www免费视频在线观看| 一区二区三区av天堂| 中文字幕乱码亚洲中文在线| 97se亚洲国产综合自在线观看| 男人猛躁进女人免费播放| 337p日本欧洲亚洲大胆色噜噜| 一区一区三区产品乱码| 精品?一区?卡| 国产精品久久无码不卡黑寡妇| 精品无码国产一区二区三区AV| 免费无码又黄又爽又刺激| 91NAV成人黄色| 亚洲AV成人片在线观看 | 亚洲成人中文字幕|