<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      讓離線強化學習從「局部描摹」變「全局布局」丨ICLR'26

      0
      分享至

      面對復雜連續任務的長程規劃,現有的生成式離線強化學習方法往往會暴露短板。

      它們生成的軌跡經常陷入局部合理但全局偏航的窘境。

      它們太關注眼前的每一步,卻忘了最終的目的地。



      針對這一痛點,廈門大學和香港科技大學提出一種名為MAGE(魔法師,Multi-scale Autoregressive Generation)的離線強化學習新算法。

      MAGE與現有序列生成方法不同,MAGE采用自頂向下的“由粗到細”生成策略,先建模軌跡的宏觀規劃,再逐步細化微觀細節。

      MAGE的核心思路非常符合人類的直覺:“自頂向下、由粗到細”

      這就好比畫一幅素描,你不會一上來就描繪眼睛的睫毛,而是先畫出整體的身體輪廓(宏觀規劃),再逐步細化五官和表情

      (微觀動作)



      △MAGE的思考過程

      從一場”迷宮尋寶“揭示AI規劃的盲區

      為了直觀展示現有模型的缺陷,研究團隊設計了一個迷宮吃金幣小實驗。智能體需要從隨機起點出發,依靠對環境的長程空間理解,先吃銀幣,再吃金幣,最后抵達終點。



      △各個算法在迷宮環境的表現

      然而,面對這種需要全局規劃的場景,現有的模型紛紛暴露了缺陷。

      • Decision Transformer受限于單向自回歸特性帶來的全局上下文缺失,它在長程規劃中完全迷失方向,最終連終點都未能抵達。
      • Decision Diffuser則由于擴散模型固有的局部生成偏差,生成的軌跡往往只能保證局部合理;雖然智能體抵達了終點,卻遺漏了關鍵的一枚金幣,全局連貫性較差。
      • Hierarchical Diffuser雖然嘗試通過分層結構建模全局軌跡,但由于其固定的雙層結構過于僵硬高低層策略之間缺乏有效協同,生成的軌跡甚至出現了物理違規的“穿墻”現象,全局規劃與局部動作嚴重脫節。

      相比之下,MAGE則通過多尺度“從粗到細”的生成架構成功完成了任務。它首先在最粗的時間尺度上勾勒出包含所有關鍵節點的宏觀全局輪廓,隨后利用多尺度Transformer在更細的時間尺度上逐層細化,順利規劃出完整的路徑。

      MAGE的核心思路:從畫大綱到扣細節

      MAGE采用“自頂向下、由粗到細”的生成方式。MAGE包含兩大核心模塊,并輔以精確的控制機制:



      △MAGE的架構圖

      MTAE多尺度軌跡自編碼器:MAGE將長序列軌跡轉化為從粗到細的多尺度離散Token。粗尺度的Token負責掌控全局長程結構,最細尺度的Token則詳細建模短期的動態細節

      多尺度條件引導自回歸生成:模型使用Transformer序列化地生成這些多尺度Token。在生成每層時,都會嚴格以“目標回報”和“初始狀態”作為條件進行約束,確保智能體的每一步都在朝著最終目標前進。

      條件引導細化與動作決策:因為把連續世界變成離散Token會丟失信息,普通的生成過程容易讓軌跡起點偏離現實。為此,MAGE在解碼器中集成了輕量級的適配器(adapter)模塊,并引入了條件引導損失函數Lcond,強制解碼出的初始狀態與真實環境是精確對齊的。最后,通過潛在逆動力學模型決定最終的動作。

      實驗表現:長序列任務全面超越,推理速度滿足實時控制

      研究團隊在包含Adroit、Franka Kitchen、AntMaze等5個離線RL基準測試中,將MAGE與15種具有代表性的基線算法進行了廣泛的評估。

      多任務表現出色



      在極具挑戰的高維連續控制Adroit機械臂任務中,面對極其稀疏的獎勵,MAGE實現了顯著的性能提升,大幅優于對比方法。在強調子目標執行順序的Franka Kitchen組合任務中,MAGE憑借捕獲全局結構和局部細節的能力,以相當大的優勢超越了所有競爭算法。



      迷宮導航任務中,MAGE在所有數據集上均取得了最佳性能,證明了其處理長序列導航任務的卓越能力。

      極高的推理效率與部署潛力



      MAGE在保持高性能的同時,實現了出色的計算效率平衡。實驗數據表明,MAGE的運行速度比Hierarchical Diffuser快約50倍,比Decision Diffuser快80倍。其每步推理時間保持在27毫秒,完美滿足了真實機器人控制所要求的20 Hz實時運行門檻

      結語

      MAGE成功地將多尺度軌跡建模與條件引導相結合,通過“從粗到細”的自回歸框架生成連貫且可控的高回報軌跡。當有一天,機器人不再需要人類一口一口地“喂”獎勵,而是能夠自主審視全局,制定長遠計劃并流暢執行時,也許具身智能的下一個奇點就真正到來了。

      論文鏈接:
      https://arxiv.org/abs/2602.23770
      開源代碼:
      https://github.com/xmu-rl-3dv/MAGE
      實驗室主頁:
      https://asc.xmu.edu.cn/

      作者介紹:
      本文第一作者來自廈門大學空間感知與計算實驗室(ASC Lab)2024級碩士生林晨興、2025級碩士生高鑫輝,通訊作者為廈門大學沈思淇副教授,并由張海鵬、李欣然(香港科技大學)、王海濤、梅松竹副研究員、劉偉權副教授(集美大學)、王程教授共同合作完成。研究團隊長期聚焦于強化學習,多智能體系統以及大模型智能體。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗公布對執行營救美軍機開火畫面

      伊朗公布對執行營救美軍機開火畫面

      環球網資訊
      2026-04-07 14:32:39
      孩子厭學喊累:最好的辦法不是物質獎勵、不是去補習班,而是……

      孩子厭學喊累:最好的辦法不是物質獎勵、不是去補習班,而是……

      新東方家庭教育
      2026-04-07 15:30:33
      曝小玥兒日本歸來第一次來月事,S家人不教她,網友直呼無底線!

      曝小玥兒日本歸來第一次來月事,S家人不教她,網友直呼無底線!

      古希臘掌管松餅的神
      2026-04-06 21:35:36
      王寶強和女友開京牌大G到青島,馮清人高馬大,襯得寶強像小嬌夫

      王寶強和女友開京牌大G到青島,馮清人高馬大,襯得寶強像小嬌夫

      八怪娛
      2026-04-07 15:02:12
      600130,申請撤銷退市風險警示!

      600130,申請撤銷退市風險警示!

      證券時報e公司
      2026-04-07 19:31:25
      每吃一次,猝死就快一步?醫生:這4物是心源性猝死的“催化劑”

      每吃一次,猝死就快一步?醫生:這4物是心源性猝死的“催化劑”

      健康科普365
      2026-04-03 22:00:07
      特朗普再次推遲對伊朗的最后通牒

      特朗普再次推遲對伊朗的最后通牒

      參考消息
      2026-04-06 10:27:04
      現役球員進NBA名人堂的概率!4人100%,哈登99%,利拉德出乎意料

      現役球員進NBA名人堂的概率!4人100%,哈登99%,利拉德出乎意料

      麥子的籃球故事
      2026-04-07 17:44:51
      陳光標變現大勞捐千萬后續!曝嫣然已退款,原因炸裂,果然有貓膩

      陳光標變現大勞捐千萬后續!曝嫣然已退款,原因炸裂,果然有貓膩

      億通電子游戲
      2026-04-07 17:54:26
      打虎!王文靈被查

      打虎!王文靈被查

      21世紀經濟報道
      2026-04-07 17:50:58
      1920年,一位俄羅斯醫生突發奇想,把猴子的睪丸,植入到老頭體內

      1920年,一位俄羅斯醫生突發奇想,把猴子的睪丸,植入到老頭體內

      歲月有情1314
      2026-04-07 07:26:46
      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      李橑在北漂
      2026-04-02 10:22:26
      賀子珍多年后才知毛岸英犧牲真相,當場哭喊:那是我親生兒子啊

      賀子珍多年后才知毛岸英犧牲真相,當場哭喊:那是我親生兒子啊

      老杉說歷史
      2026-03-21 17:38:19
      美飛行員36小時極限逃生: 藏身海拔2000米巖縫發求救信號 伊朗:發現一美兵遺體

      美飛行員36小時極限逃生: 藏身海拔2000米巖縫發求救信號 伊朗:發現一美兵遺體

      紅星新聞
      2026-04-06 13:44:12
      最具影響力的漫畫家,尾田僅排第四,鳥山明第二,第一永遠的神

      最具影響力的漫畫家,尾田僅排第四,鳥山明第二,第一永遠的神

      動漫小天堂
      2026-04-06 11:10:36
      看來美帝是真的準備打地面戰爭了

      看來美帝是真的準備打地面戰爭了

      仰望星空的一粒沙子
      2026-04-04 19:18:21
      2名飛行員和5億美元哪個更重要?

      2名飛行員和5億美元哪個更重要?

      山河路口
      2026-04-06 12:12:25
      楊振寧去世5個月后,49歲翁帆現狀:剪了頭發染了色,仍獨居國內

      楊振寧去世5個月后,49歲翁帆現狀:剪了頭發染了色,仍獨居國內

      照見古今
      2026-03-26 19:06:28
      搜救變“送寶”!美軍C130殘骸里,竟挖出AH6“小鳥”核心機密

      搜救變“送寶”!美軍C130殘骸里,竟挖出AH6“小鳥”核心機密

      安安說
      2026-04-06 14:55:17
      分手29年后,肖戰成國乒副總教練,而她嫁給富商,已是大學教授

      分手29年后,肖戰成國乒副總教練,而她嫁給富商,已是大學教授

      做一個合格的吃瓜群眾
      2026-04-06 10:16:48
      2026-04-07 20:47:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12434文章數 176445關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      美軍拯救飛行員差一點失敗 從40英里外用攝像頭對準他

      頭條要聞

      美軍拯救飛行員差一點失敗 從40英里外用攝像頭對準他

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      藝術
      教育
      家居
      數碼
      公開課

      藝術要聞

      美麗風光看不盡

      教育要聞

      教育部:學位論文抽檢,改革!

      家居要聞

      雅致愜意 感知生活之美

      數碼要聞

      1999元就能買Mini LED電視 海信Vidda小鋼炮S Mini開售

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版