<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      ICLR 2026 | 世界模型卡在多機器人協(xié)作?一個順序分解思路打通

      0
      分享至



      趙子杰,中國科學院自動化研究所博士生,導師為趙冬斌研究員和朱圓恒副研究員。本科畢業(yè)于電子科技大學并獲得榮譽學位(Top 0.7%)。主要研究方向為強化學習、世界模型和機器人學習,重點關(guān)注融合學習、規(guī)劃與控制的方法,以實現(xiàn)魯棒且可擴展的真實世界機器人智能。

      近年來,Decision-Coupled World Model與Model-based RL在機器人領(lǐng)域取得了顯著成功。通過學習環(huán)境動力學模型,智能體能夠在內(nèi)部模擬未來,從而進行規(guī)劃與決策。但當系統(tǒng)從單機器人擴展到多機器人時,問題開始變得棘手。

      在多機器人系統(tǒng)中,世界的變化不再由單獨個體決定,而是由多個個體共同作用。于是,一個關(guān)鍵問題是:如何讓世界模型能夠理解多機器人系統(tǒng)的聯(lián)合動力學?

      為了解決這一挑戰(zhàn),中科院自動化所深度強化學習團隊提出 SeqWM,對多機器人聯(lián)合動力學進行順序式的因果條件化分解,使機器人能夠在意圖共享的基礎(chǔ)上進行協(xié)同規(guī)劃。該成果已被ICLR 2026接收,并在評審中獲得8 / 8 / 8 / 2的評分。



      • 論文標題:Empowering Multi-Robot Cooperation via Sequential World Models
      • 代碼地址:https://github.com/zhaozijie2022/seqwm

      為什么多機器人協(xié)作如此困難?

      當多個機器人同時參與決策時,系統(tǒng)的動力學會迅速變得復雜:每個機器人的動作都會影響環(huán)境,也會影響其他機器人接下來的決策。這使得多機器人協(xié)作成為強化學習和機器人領(lǐng)域長期以來的核心難題。核心原因在于:世界不再由單一策略驅(qū)動,而是由多個智能體共同決定。這帶來了兩個關(guān)鍵挑戰(zhàn):

      • 因果結(jié)構(gòu)復雜化:多個機器人同時作用于環(huán)境,導致動力學模型需要同時處理多個「因果源」,學習難度顯著增加。強行共享策略易產(chǎn)生梯度沖突。
      • 決策 - 世界閉環(huán)被打破:在單機器人場景中,動作 → 環(huán)境變化之間形成穩(wěn)定閉環(huán);而在多機器人系統(tǒng)中,每個機器人都受到其他機器人的影響,預測誤差會迅速累積。



      圖 1:多智能體世界建模困境:在多個 robot 的作用下,足球去向哪里?

      SeqWM:多機器人世界模型的順序式因果分解

      現(xiàn)有方法通常把多機器人系統(tǒng)看作一個整體:所有機器人的狀態(tài)和動作會同時輸入到一個統(tǒng)一模型中,進而預測未來環(huán)境變化。然而,隨著機器人數(shù)量增加,這種聯(lián)合動力學建模的復雜度會迅速增長,使得模型難以穩(wěn)定學習和泛化,也增大了部署的難度。

      SeqWM 從一個全新的視角重新思考了這個問題。研究團隊提出一個關(guān)鍵觀察:

      多機器人世界的變化,其實可以被建模為多個機器人依次作用于環(huán)境的過程。

      基于這一觀察,SeqWM 不再試圖學習一個復雜的整體動力學函數(shù),而是將聯(lián)合動力學分解為一系列順序條件化的狀態(tài)轉(zhuǎn)移過程。每個機器人只需要學習:在已知前序機器人動作的條件下,自己對世界狀態(tài)演化所產(chǎn)生的邊際因果貢獻。形式上,原本的聯(lián)合動力學被重寫為順序條件化的分解形式:



      這種順序式分解將復雜的多機器人動力學轉(zhuǎn)化為一系列條件預測問題,從而顯著降低了建模難度。



      圖 2:R1 先規(guī)劃并共享未來軌跡,R2 據(jù)此調(diào)整路徑,實現(xiàn)對房間的協(xié)同探索

      在軌跡預測階段,

      • 每個機器人維護一個獨立的世界模型
      • 每個模型只建模自身對環(huán)境的邊際貢獻
      • 后續(xù)機器人在預測時條件化前序機器人的預測結(jié)果

      這種結(jié)構(gòu)使得復雜的聯(lián)合動力學被拆解為多個簡單且可擴展的局部預測過程。

      在動作規(guī)劃階段,SeqWM 使用 MPPI(Model Predictive Path Integral) 進行動作規(guī)劃。機器人按照順序進行規(guī)劃,并共享預測軌跡。這意味著:后續(xù)機器人在規(guī)劃時,可以提前知道前序機器人的未來計劃。這種機制形成了一種顯式的意圖共享,顯著增強協(xié)作能力。



      圖 3:MPPI-based planner 示意圖

      仿真實驗對比

      研究團隊在兩個具有挑戰(zhàn)性的多機器人環(huán)境中評估了 SeqWM:

      • Bi-DexHands:雙靈巧手協(xié)作操作任務(wù)
      • Multi-Quadruped:多四足機器人協(xié)作任務(wù)

      實驗結(jié)果表明:SeqWM 在所有任務(wù)中均顯著超過現(xiàn)有方法,在性能與樣本效率方面均取得領(lǐng)先。



      圖4:仿真實驗可視化

      協(xié)作行為如何自然產(chǎn)生?

      SeqWM 不僅提升了任務(wù)成功率,還產(chǎn)生了多種自然協(xié)作行為。例如:

      預測適應(Predictive Adaptation):機器人能夠根據(jù)伙伴預測的未來動作提前調(diào)整動作。例如在接拋球任務(wù)中,接球機器人會提前移動到預測落點附近,從而穩(wěn)定完成抓取。



      角色分工(Role Division):在推箱子任務(wù)中:一只機器人負責 主要推進力,另一只機器人負責 方向調(diào)整。這種分工并非人工設(shè)計,而是在訓練中自然產(chǎn)生。



      Sim-to-Real 真實機器人實驗

      為了驗證算法在真實環(huán)境中的效果,研究團隊還將 SeqWM 部署到了 Unitree Go2-W 機器人平臺。實驗包括:推箱子、通過窄門、引導目標機器人:





      實驗結(jié)果表明,真實機器人系統(tǒng)中的協(xié)作行為與仿真結(jié)果高度一致,驗證了 SeqWM 的實際應用潛力。

      總結(jié)

      SeqWM 提出了一種新的多機器人世界建模方式:通過順序因果結(jié)構(gòu)分解多機器人動力學。這一設(shè)計使得復雜的多機器人協(xié)作問題變得更加可建模、可規(guī)劃,也為真實機器人系統(tǒng)提供了一種可擴展的解決方案。隨著世界模型與強化學習技術(shù)的發(fā)展,未來的機器人系統(tǒng)或許能夠像人類團隊一樣,通過共享意圖與協(xié)同行動完成更加復雜的任務(wù)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      戶外一姐唐藝驚現(xiàn)意外走光,粉絲為何越看越上頭?

      戶外一姐唐藝驚現(xiàn)意外走光,粉絲為何越看越上頭?

      娛樂領(lǐng)航家
      2026-03-12 22:00:04
      歷史老師跌入“無人區(qū)”:某高中20人教研組,近一半無學生可教

      歷史老師跌入“無人區(qū)”:某高中20人教研組,近一半無學生可教

      聽心堂
      2026-03-31 15:52:04
      施瓦辛格私生子太爭氣,首奪健美冠軍!女保姆所生,肌肉復制父親

      施瓦辛格私生子太爭氣,首奪健美冠軍!女保姆所生,肌肉復制父親

      頭號電影院
      2026-04-03 22:24:38
      銀行存款新利息已出爐!4月1日起,各大銀行定期存款利率來了

      銀行存款新利息已出爐!4月1日起,各大銀行定期存款利率來了

      小談食刻美食
      2026-04-07 08:45:47
      大跳水!暴跌40%,又土又貴還開遍機場,中產(chǎn)的標配,賣不動了

      大跳水!暴跌40%,又土又貴還開遍機場,中產(chǎn)的標配,賣不動了

      毒sir財經(jīng)
      2025-11-16 23:08:08
      “美軍特種部隊已進入伊朗”

      “美軍特種部隊已進入伊朗”

      觀察者網(wǎng)
      2026-04-04 20:03:27
      河南將迎大范圍降雨天氣,局部或出現(xiàn)暴雨,河南未來三天天氣詳情

      河南將迎大范圍降雨天氣,局部或出現(xiàn)暴雨,河南未來三天天氣詳情

      夜深愛雜談
      2026-04-07 16:23:59
      中日破裂,這是53年來對日最強硬的外交表態(tài)!

      中日破裂,這是53年來對日最強硬的外交表態(tài)!

      見聞致
      2025-11-15 21:21:56
      這個 “不雅” 的坐姿,竟有這么多好處?尤其適合女性

      這個 “不雅” 的坐姿,竟有這么多好處?尤其適合女性

      貓大夫醫(yī)學科普
      2026-03-25 06:47:45
      醫(yī)生研究發(fā)現(xiàn):不易患癡呆的老人,大多有5個習慣,占一個也不錯

      醫(yī)生研究發(fā)現(xiàn):不易患癡呆的老人,大多有5個習慣,占一個也不錯

      王曉愛體彩
      2026-03-31 15:20:42
      網(wǎng)友:陳思誠祖宗18代都要感謝佟麗婭,她生了一個清爽版的自己

      網(wǎng)友:陳思誠祖宗18代都要感謝佟麗婭,她生了一個清爽版的自己

      好賢觀史記
      2026-04-07 13:55:11
      美國華裔科學家李飛飛:若奪下諾貝爾獎,我定以中國人身份領(lǐng)獎!

      美國華裔科學家李飛飛:若奪下諾貝爾獎,我定以中國人身份領(lǐng)獎!

      墨印齋
      2026-04-07 21:58:46
      你聽過最勁爆的瓜是啥?網(wǎng)友:被大八歲的補習班老師表白了

      你聽過最勁爆的瓜是啥?網(wǎng)友:被大八歲的補習班老師表白了

      帶你感受人間冷暖
      2025-11-26 00:10:06
      霍爾木茲海峽竟意外按下中國大西北財富加速鍵

      霍爾木茲海峽竟意外按下中國大西北財富加速鍵

      人生錄
      2026-04-08 00:42:09
      皇馬公布戰(zhàn)拜仁名單:姆巴佩、維尼修斯領(lǐng)銜,貝林厄姆在列

      皇馬公布戰(zhàn)拜仁名單:姆巴佩、維尼修斯領(lǐng)銜,貝林厄姆在列

      懂球帝
      2026-04-07 19:19:59
      毛新宇回韶山祭掃當?shù)毓俦膛阃寒嬅媪鞒觯哳佒灯夼掌毓?>
    </a>
        <h3>
      <a href=溫柔看世界
      2026-04-06 14:55:35
      網(wǎng)傳“前國足教練米盧去世享年82歲”,米盧好友回應

      網(wǎng)傳“前國足教練米盧去世享年82歲”,米盧好友回應

      喜歡歷史的阿繁
      2026-04-07 17:15:57
      日本東大中堅學者轉(zhuǎn)投香港折射亞洲科研版圖重組

      日本東大中堅學者轉(zhuǎn)投香港折射亞洲科研版圖重組

      蔣豐看日本
      2026-04-07 17:23:07
      電影《我,許可》直面“陰道瓣”,探討女性話題。

      電影《我,許可》直面“陰道瓣”,探討女性話題。

      風月得自難尋
      2026-04-05 07:28:04
      中方發(fā)布通報,日本開始抓人,闖館暴徒改口,中方:繼續(xù)給我查

      中方發(fā)布通報,日本開始抓人,闖館暴徒改口,中方:繼續(xù)給我查

      雅兒姐在遛彎
      2026-04-04 00:26:17
      2026-04-08 03:40:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12701文章數(shù) 142616關(guān)注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      特朗普:伊朗人愿為自由承受轟炸

      頭條要聞

      特朗普:伊朗人愿為自由承受轟炸

      體育要聞

      斯洛特:去年我們在巴黎配得上輸個0-4,比上周六踢曼城更配

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產(chǎn)

      財經(jīng)要聞

      10萬億財政轉(zhuǎn)移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態(tài)體驗

      態(tài)度原創(chuàng)

      藝術(shù)
      時尚
      數(shù)碼
      健康
      家居

      藝術(shù)要聞

      深圳最慘地王復活?70億起拍,曾規(guī)劃中國第一高樓!

      120元和120分鐘,哪個更奢侈?

      數(shù)碼要聞

      賤驢NV60磁軸鍵盤上市:顯卡主題造型設(shè)計,899元

      干細胞抗衰4大誤區(qū),90%的人都中招

      家居要聞

      雅致愜意 感知生活之美

      無障礙瀏覽 進入關(guān)懷版