<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      港科大×字節跳動Seed提出WMPO,在世界模型中進行VLA強化學習

      0
      分享至



      香港科技大學 PEI-Lab 與字節跳動 Seed 團隊近期提出的 WMPO(World Model-based Policy Optimization),正是這樣一種讓具身智能在 “想象中訓練” 的新范式。該方法無需在真實機器人上進行大規模強化學習交互,卻能顯著提升策略性能,甚至涌現出 自我糾錯(Self-correction) 行為。該文章目前已被 ICLR 2026 接收,目前,論文、代碼與模型均已開源。

      論文第一作者朱方琪是香港科技大學博士生,研究方向包括世界模型,具身智能,多模態大模型等。第二作者為香港科技大學研究型碩士生嚴正陽。通訊作者為香港科技大學計算機科學及工程系講座教授郭嵩教授以及字節跳動 Seed 團隊馬驍。



      • 論文標題:WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
      • 項目網站:https://wm-po.github.io
      • 論文鏈接:https://arxiv.org/abs/2511.09515
      • 論文代碼:https://github.com/WM-PO/WMPO

      傳統 VLA 訓練的 “緊箍咒”:

      模仿易碎,交互昂貴

      近年來,視覺 - 語言 - 動作(VLA)模型在通用操作任務中展現了令人印象深刻的潛力,但其訓練方式長期受制于兩大瓶頸。

      第一,模仿學習的先天局限。

      大多數 VLA 模型依賴專家演示數據進行訓練,只學習了 “什么是正確操作”,卻幾乎沒有見過 “犯錯之后該怎么辦”。在推理時,一旦狀態稍微偏離訓練分布,錯誤便會不斷累積,最終導致任務徹底失敗。這種 “脆弱性” 在長序列操作中尤為明顯。

      第二,現實強化學習的高昂代價。

      強化學習理論上可以解決上述問題,但在真實機器人上進行 RL 交互往往需要數百萬次嘗試,不僅采樣效率極低,還伴隨著硬件磨損、安全風險和高昂的實驗成本。

      已有研究 [1] 嘗試借助潛空間世界模型(Latent Space World Model)來緩解現實交互壓力,但這類模型通常與預訓練 VLA 所使用的真實圖像表征存在差異,難以直接用于現有 VLA 框架中的策略優化。



      WMPO 的核心突破:

      像素級 “想象” 與 Online GRPO

      WMPO 提出了一種新的訓練范式:將策略優化過程完整地遷移到視覺世界模型中完成,讓具身代理在 “想象” 的軌跡中學習如何從錯誤中恢復。其核心設計包含三個關鍵要點:

      像素級視覺世界模型,讓錯誤也能被真實模擬

      與以往在潛空間中進行預測不同,WMPO 構建的是像素級視覺世界模型。模型直接在圖像空間中,根據當前觀察和動作預測下一幀視覺反饋,從而生成完整的 “想象軌跡”。為了保證世界模型不僅能復現專家行為,還能覆蓋策略執行過程中可能出現的各種偏差,研究團隊引入了策略行為對齊(Policy Behavior Alignment) 機制:在專家數據預訓練的基礎上,進一步對策略生成的非專家軌跡進行對齊訓練,使世界模型能夠準確模擬 OOD 動作及其失敗后果。

      在想象空間中進行 Online GRPO

      在高保真的視覺世界模型中,WMPO 進一步將強化學習過程引入 “想象空間”。具體而言,對于同一初始狀態,VLA 模型會在世界模型中生成一組不同的候選軌跡;通過訓練得到的獎勵函數判斷每條軌跡是否成功,并在組內進行相對比較,從而估計優勢。這種 Online GRPO(Group Relative Policy Optimization) 的方式不依賴額外的價值網絡,顯著降低了內存與訓練復雜度,同時在長序列生成中表現出更好的穩定性。更重要的是,“組內競爭” 機制使模型能夠自動偏好那些即使犯錯、也能恢復并完成任務的動作路徑。

      攻克長時生成難題:讓 “想象” 不崩壞

      長時間視頻預測一直是視覺世界模型面臨的核心挑戰。為防止想象畫面隨時間退化,WMPO 引入了:

      • 噪聲幀增強(Noisy-frame conditioning)
      • 幀級動作控制機制

      這些設計確保模型在生成數百幀 “想象軌跡” 時,仍能保持畫面清晰、動作對齊,為策略優化提供穩定可靠的訓練環境。



      WMPO 架構解析:

      像素級演化,三步跨越現實

      構建高保真 “沙盒”:視覺世界模型建模





      策略行為對齊:為了讓世界模型能模擬策略生成的 OOD 動作及其后果,研究團隊不僅在專家數據上訓練,還針對策略生成的非專家軌跡進行對齊,確保模型能夠準確預測 “失敗案例”。

      策略評價與改進:想象空間內的 Online GRPO





      這種 “組內競爭” 機制讓模型能夠自動識別并強化那些能從錯誤中恢復的動作路徑。

      學習目標:自監督式參數優化

      在 “想象” 出的軌跡上,WMPO 最小化以下目標函數,將 VLA 模型從單純的模仿者轉化為自我進化的決策者:



      偽代碼算法如下:



      實驗結果:樣本效率,

      涌現能力,執行效率的驚喜

      研究團隊在 MimicGen 模擬環境和真實 ALOHA 機器人上對 WMPO 進行了系統評估。

      采樣效率顯著提升。

      在僅使用 128 條真實軌跡作為數據預算時,WMPO 的成功率已超過最優 Offline RL 基線 9.8%;當預算提升至 1280 條時,領先優勢進一步擴大至 15.2%。



      自我糾錯行為的涌現。

      在 “方塊套圈” 等任務中,當基座模型因碰撞或姿態偏移而卡死時,WMPO 訓練得到的策略會主動調整動作:例如抬起方塊、重新對準目標并再次嘗試。這類糾錯行為并未出現在專家演示數據中,而是通過 “想象中的失敗與比較” 自然涌現。



      執行效率更高。

      WMPO 訓練的策略動作更加連貫、果斷,成功軌跡長度明顯縮短,減少了猶豫和重復嘗試。



      需要注意的是,這種自我糾錯能力目前主要在結構化操作任務中被系統觀察到,其泛化邊界仍有待進一步探索。

      啟示與展望

      WMPO 的成功證明了:高質量的 “想象” 足以替代昂貴的 “實踐”。通過將 VLA 的強化學習過程解耦到生成式世界模型中,我們不僅解決了采樣效率的難題,更讓機器人學會了在挫折中自我完善。

      正如達芬奇所言,“簡單是終極的復雜”,WMPO 用純粹的視覺模擬,為具身智能走向通用化指明了一條充滿想象力的道路。

      更多方法細節與實驗分析請見原論文。

      [1] Hafner, D., Pasukonis, J., Ba, J. et al. Mastering diverse control tasks through world models. Nature 640, 647–653 (2025). https://doi.org/10.1038/s41586-025-08744-2

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      重要賽事!3月2日晚19:30!中央5套CCTV5、CCTV5+直播節目表

      重要賽事!3月2日晚19:30!中央5套CCTV5、CCTV5+直播節目表

      皮皮觀天下
      2026-03-02 11:54:31
      集體爆發!狂掀漲停潮!

      集體爆發!狂掀漲停潮!

      中國基金報
      2026-03-02 12:49:45
      伊朗為什么不學澤連斯基給民眾發槍?

      伊朗為什么不學澤連斯基給民眾發槍?

      昊軒看世界
      2026-03-01 11:02:14
      上海旅客講述迪拜驚魂夜:百余人手機同時響警報,航班再延期

      上海旅客講述迪拜驚魂夜:百余人手機同時響警報,航班再延期

      南方都市報
      2026-03-02 09:25:52
      新春第一會,炸出一個最敢“闖”的經濟大區,太燃了

      新春第一會,炸出一個最敢“闖”的經濟大區,太燃了

      智谷趨勢
      2026-02-27 17:12:36
      這條無恥新聞,引起公憤了!

      這條無恥新聞,引起公憤了!

      胖胖說他不胖
      2026-03-02 12:58:07
      560名美軍傷亡,航母挨炸,美國后院起火,特朗普算錯一件事!

      560名美軍傷亡,航母挨炸,美國后院起火,特朗普算錯一件事!

      知法而形
      2026-03-02 11:27:56
      新勢力2月銷量:零跑理想前兩名,小米問界跌慘了

      新勢力2月銷量:零跑理想前兩名,小米問界跌慘了

      定焦One
      2026-03-02 09:59:17
      伊朗前總統內賈德親信稱其平安

      伊朗前總統內賈德親信稱其平安

      界面新聞
      2026-03-02 11:52:29
      油氣股午后再度走強 中國石油封漲停創近11年新高

      油氣股午后再度走強 中國石油封漲停創近11年新高

      財聯社
      2026-03-02 13:28:26
      三艘英美油輪在波斯灣和霍爾木茲海峽遭襲

      三艘英美油輪在波斯灣和霍爾木茲海峽遭襲

      界面新聞
      2026-03-02 15:10:16
      “斬首”行動細節揭秘:美以戰機同地起飛,直撲哈梅內伊

      “斬首”行動細節揭秘:美以戰機同地起飛,直撲哈梅內伊

      中國新聞周刊
      2026-03-02 10:32:04
      央視首次曝光!每臺4億美元重180噸,全世界最先進光刻機揭開面紗

      央視首次曝光!每臺4億美元重180噸,全世界最先進光刻機揭開面紗

      涵豆說娛
      2026-03-02 14:07:31
      國際油價跳漲,黃金、白銀直線拉升!伊朗:反擊已造成560名美軍傷亡

      國際油價跳漲,黃金、白銀直線拉升!伊朗:反擊已造成560名美軍傷亡

      每日經濟新聞
      2026-03-02 10:56:32
      三名美國士兵喪生,特朗普發誓要復仇,放話"何時停戰由伊方決定"

      三名美國士兵喪生,特朗普發誓要復仇,放話"何時停戰由伊方決定"

      派大星紀錄片
      2026-03-02 10:34:38
      坐不住了!絕情臭豆腐老板道歉了,賠償8.5個月工資,捐了近3萬!

      坐不住了!絕情臭豆腐老板道歉了,賠償8.5個月工資,捐了近3萬!

      離離言幾許
      2026-03-01 23:23:49
      伊朗外交部長:幾乎所有官員都健康在世

      伊朗外交部長:幾乎所有官員都健康在世

      財聯社
      2026-02-28 22:54:54
      有趣!伊朗被打,“專家們”顏面盡失!

      有趣!伊朗被打,“專家們”顏面盡失!

      走讀新生
      2026-03-02 10:38:39
      歷史上首架F15被擊落,美軍飛行員一死一被俘!

      歷史上首架F15被擊落,美軍飛行員一死一被俘!

      勝研集
      2026-03-02 14:06:57
      收評:滬指放量漲0.47% 油氣股逆勢爆發

      收評:滬指放量漲0.47% 油氣股逆勢爆發

      財聯社
      2026-03-02 15:03:08
      2026-03-02 16:36:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12391文章數 142574關注度
      往期回顧 全部

      科技要聞

      榮耀發布機器人手機、折疊屏、人形機器人

      頭條要聞

      牛彈琴:伊朗之戰比俄烏之戰更生猛 給世界5個深刻教訓

      頭條要聞

      牛彈琴:伊朗之戰比俄烏之戰更生猛 給世界5個深刻教訓

      體育要聞

      卡里克主場5連勝!隊史第2人通過最大考驗

      娛樂要聞

      美伊以沖突爆發,多位明星被困中東

      財經要聞

      金銀大漲 市場仍在評估沖突會否長期化

      汽車要聞

      國民SUV再添一員 瑞虎7L靜態體驗

      態度原創

      游戲
      房產
      本地
      公開課
      軍事航空

      三角洲玩家沒續艦長遭主播毀號!一億資產30秒清空

      房產要聞

      濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

      本地新聞

      津南好·四時總相宜

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美軍動用新型武器:山寨伊朗的

      無障礙瀏覽 進入關懷版