<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      讓離線強(qiáng)化學(xué)習(xí)從「局部描摹」變「全局布局」丨ICLR'26

      0
      分享至

      面對(duì)復(fù)雜連續(xù)任務(wù)的長程規(guī)劃,現(xiàn)有的生成式離線強(qiáng)化學(xué)習(xí)方法往往會(huì)暴露短板。

      它們生成的軌跡經(jīng)常陷入局部合理但全局偏航的窘境。

      它們太關(guān)注眼前的每一步,卻忘了最終的目的地。



      針對(duì)這一痛點(diǎn),廈門大學(xué)和香港科技大學(xué)提出一種名為MAGE(魔法師,Multi-scale Autoregressive Generation)的離線強(qiáng)化學(xué)習(xí)新算法。

      MAGE與現(xiàn)有序列生成方法不同,MAGE采用自頂向下的“由粗到細(xì)”生成策略,先建模軌跡的宏觀規(guī)劃,再逐步細(xì)化微觀細(xì)節(jié)。

      MAGE的核心思路非常符合人類的直覺:“自頂向下、由粗到細(xì)”。

      這就好比畫一幅素描,你不會(huì)一上來就描繪眼睛的睫毛,而是先畫出整體的身體輪廓(宏觀規(guī)劃),再逐步細(xì)化五官和表情

      (微觀動(dòng)作)



      △MAGE的思考過程

      從一場(chǎng)”迷宮尋寶“揭示AI規(guī)劃的盲區(qū)

      為了直觀展示現(xiàn)有模型的缺陷,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)迷宮吃金幣小實(shí)驗(yàn)。智能體需要從隨機(jī)起點(diǎn)出發(fā),依靠對(duì)環(huán)境的長程空間理解,先吃銀幣,再吃金幣,最后抵達(dá)終點(diǎn)。



      △各個(gè)算法在迷宮環(huán)境的表現(xiàn)

      然而,面對(duì)這種需要全局規(guī)劃的場(chǎng)景,現(xiàn)有的模型紛紛暴露了缺陷。

      • Decision Transformer受限于單向自回歸特性帶來的全局上下文缺失,它在長程規(guī)劃中完全迷失方向,最終連終點(diǎn)都未能抵達(dá)。
      • Decision Diffuser則由于擴(kuò)散模型固有的局部生成偏差,生成的軌跡往往只能保證局部合理;雖然智能體抵達(dá)了終點(diǎn),卻遺漏了關(guān)鍵的一枚金幣,全局連貫性較差。
      • Hierarchical Diffuser雖然嘗試通過分層結(jié)構(gòu)建模全局軌跡,但由于其固定的雙層結(jié)構(gòu)過于僵硬高低層策略之間缺乏有效協(xié)同,生成的軌跡甚至出現(xiàn)了物理違規(guī)的“穿墻”現(xiàn)象,全局規(guī)劃與局部動(dòng)作嚴(yán)重脫節(jié)。

      相比之下,MAGE則通過多尺度“從粗到細(xì)”的生成架構(gòu)成功完成了任務(wù)。它首先在最粗的時(shí)間尺度上勾勒出包含所有關(guān)鍵節(jié)點(diǎn)的宏觀全局輪廓,隨后利用多尺度Transformer在更細(xì)的時(shí)間尺度上逐層細(xì)化,順利規(guī)劃出完整的路徑。

      MAGE的核心思路:從畫大綱到扣細(xì)節(jié)

      MAGE采用“自頂向下、由粗到細(xì)”的生成方式。MAGE包含兩大核心模塊,并輔以精確的控制機(jī)制:



      △MAGE的架構(gòu)圖

      MTAE多尺度軌跡自編碼器:MAGE將長序列軌跡轉(zhuǎn)化為從粗到細(xì)的多尺度離散Token。粗尺度的Token負(fù)責(zé)掌控全局長程結(jié)構(gòu),最細(xì)尺度的Token則詳細(xì)建模短期的動(dòng)態(tài)細(xì)節(jié)。

      多尺度條件引導(dǎo)自回歸生成:模型使用Transformer序列化地生成這些多尺度Token。在生成每層時(shí),都會(huì)嚴(yán)格以“目標(biāo)回報(bào)”和“初始狀態(tài)”作為條件進(jìn)行約束,確保智能體的每一步都在朝著最終目標(biāo)前進(jìn)。

      條件引導(dǎo)細(xì)化與動(dòng)作決策:因?yàn)榘堰B續(xù)世界變成離散Token會(huì)丟失信息,普通的生成過程容易讓軌跡起點(diǎn)偏離現(xiàn)實(shí)。為此,MAGE在解碼器中集成了輕量級(jí)的適配器(adapter)模塊,并引入了條件引導(dǎo)損失函數(shù)Lcond,強(qiáng)制解碼出的初始狀態(tài)與真實(shí)環(huán)境是精確對(duì)齊的。最后,通過潛在逆動(dòng)力學(xué)模型決定最終的動(dòng)作。

      實(shí)驗(yàn)表現(xiàn):長序列任務(wù)全面超越,推理速度滿足實(shí)時(shí)控制

      研究團(tuán)隊(duì)在包含Adroit、Franka Kitchen、AntMaze等5個(gè)離線RL基準(zhǔn)測(cè)試中,將MAGE與15種具有代表性的基線算法進(jìn)行了廣泛的評(píng)估。

      多任務(wù)表現(xiàn)出色



      在極具挑戰(zhàn)的高維連續(xù)控制Adroit機(jī)械臂任務(wù)中,面對(duì)極其稀疏的獎(jiǎng)勵(lì),MAGE實(shí)現(xiàn)了顯著的性能提升,大幅優(yōu)于對(duì)比方法。在強(qiáng)調(diào)子目標(biāo)執(zhí)行順序的Franka Kitchen組合任務(wù)中,MAGE憑借捕獲全局結(jié)構(gòu)和局部細(xì)節(jié)的能力,以相當(dāng)大的優(yōu)勢(shì)超越了所有競(jìng)爭(zhēng)算法。



      迷宮導(dǎo)航任務(wù)中,MAGE在所有數(shù)據(jù)集上均取得了最佳性能,證明了其處理長序列導(dǎo)航任務(wù)的卓越能力。

      極高的推理效率與部署潛力



      MAGE在保持高性能的同時(shí),實(shí)現(xiàn)了出色的計(jì)算效率平衡。實(shí)驗(yàn)數(shù)據(jù)表明,MAGE的運(yùn)行速度比Hierarchical Diffuser快約50倍,比Decision Diffuser快80倍。其每步推理時(shí)間保持在27毫秒,完美滿足了真實(shí)機(jī)器人控制所要求的20 Hz實(shí)時(shí)運(yùn)行門檻。

      結(jié)語

      MAGE成功地將多尺度軌跡建模與條件引導(dǎo)相結(jié)合,通過“從粗到細(xì)”的自回歸框架生成連貫且可控的高回報(bào)軌跡。當(dāng)有一天,機(jī)器人不再需要人類一口一口地“喂”獎(jiǎng)勵(lì),而是能夠自主審視全局,制定長遠(yuǎn)計(jì)劃并流暢執(zhí)行時(shí),也許具身智能的下一個(gè)奇點(diǎn)就真正到來了。

      論文鏈接:
      https://arxiv.org/abs/2602.23770
      開源代碼:
      https://github.com/xmu-rl-3dv/MAGE
      實(shí)驗(yàn)室主頁:
      https://asc.xmu.edu.cn/

      作者介紹:
      本文第一作者來自廈門大學(xué)空間感知與計(jì)算實(shí)驗(yàn)室(ASC Lab)2024級(jí)碩士生林晨興、2025級(jí)碩士生高鑫輝,通訊作者為廈門大學(xué)沈思淇副教授,并由張海鵬、李欣然(香港科技大學(xué))、王海濤、梅松竹副研究員、劉偉權(quán)副教授(集美大學(xué))、王程教授共同合作完成。研究團(tuán)隊(duì)長期聚焦于強(qiáng)化學(xué)習(xí),多智能體系統(tǒng)以及大模型智能體。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      演員王志文:不留骨灰,不設(shè)墓地,他的選擇值得無數(shù)人深思

      演員王志文:不留骨灰,不設(shè)墓地,他的選擇值得無數(shù)人深思

      以茶帶書
      2026-04-06 14:11:30
      魔術(shù)大勝東部第一活塞獲3連勝:班凱羅31+5貝恩25分 杜倫18+8

      魔術(shù)大勝東部第一活塞獲3連勝:班凱羅31+5貝恩25分 杜倫18+8

      醉臥浮生
      2026-04-07 09:41:48
      中小銀行存款利率下調(diào)節(jié)奏加快

      中小銀行存款利率下調(diào)節(jié)奏加快

      財(cái)聯(lián)社
      2026-04-07 06:20:23
      醉翁之意不在酒!以色列意外披露: 美軍營救飛行員實(shí)則搶奪濃縮鈾

      醉翁之意不在酒!以色列意外披露: 美軍營救飛行員實(shí)則搶奪濃縮鈾

      鐵錘簡(jiǎn)科
      2026-04-07 12:15:59
      東契奇治傷更多細(xì)節(jié):在西班牙接受注射 里夫斯情比他更不確定

      東契奇治傷更多細(xì)節(jié):在西班牙接受注射 里夫斯情比他更不確定

      羅說NBA
      2026-04-07 05:30:50
      記一次“約炮”被騙的詳細(xì)經(jīng)過

      記一次“約炮”被騙的詳細(xì)經(jīng)過

      云上南安
      2026-04-06 17:11:46
      北京一老人去世,養(yǎng)女被遺物嚇得求助政府,揭開隱藏60年的秘密

      北京一老人去世,養(yǎng)女被遺物嚇得求助政府,揭開隱藏60年的秘密

      米果說識(shí)
      2026-04-06 19:33:03
      數(shù)學(xué)的本質(zhì)到底是什么?看完這篇文章你會(huì)愛上數(shù)學(xué)

      數(shù)學(xué)的本質(zhì)到底是什么?看完這篇文章你會(huì)愛上數(shù)學(xué)

      真相Truth
      2026-04-06 06:30:12
      59歲江珊無單位無退休工資,一場(chǎng)罷演,讓她一輩子為生計(jì)奔波

      59歲江珊無單位無退休工資,一場(chǎng)罷演,讓她一輩子為生計(jì)奔波

      丹妮觀
      2026-04-06 14:49:48
      女子剖腹產(chǎn)生下雙胞胎,因?yàn)槟锛胰藳]去幫忙照顧坐月子,被丈夫一頓暴打!

      女子剖腹產(chǎn)生下雙胞胎,因?yàn)槟锛胰藳]去幫忙照顧坐月子,被丈夫一頓暴打!

      張曉磊
      2026-04-07 11:22:59
      頭孢克肟的“肟”不讀kuī,太多人不知道!正確讀音意思一次講清

      頭孢克肟的“肟”不讀kuī,太多人不知道!正確讀音意思一次講清

      未央看點(diǎn)
      2026-04-05 15:50:19
      毛主席83歲時(shí)寫下的13個(gè)鉛筆字,網(wǎng)友爭(zhēng)議其美丑!

      毛主席83歲時(shí)寫下的13個(gè)鉛筆字,網(wǎng)友爭(zhēng)議其美丑!

      書畫相約
      2026-04-05 07:55:25
      伊朗官方確認(rèn):翼龍-2首次參戰(zhàn)即被擊落,海灣國家反應(yīng)強(qiáng)烈

      伊朗官方確認(rèn):翼龍-2首次參戰(zhàn)即被擊落,海灣國家反應(yīng)強(qiáng)烈

      最新聲音
      2026-04-06 08:32:33
      福建一車輛墜河致5人死亡,當(dāng)?shù)鼗貞?yīng):共造成“3名小孩,2個(gè)大人”死亡,其中包括一家三口,事故原因等情況將進(jìn)一步通報(bào)

      福建一車輛墜河致5人死亡,當(dāng)?shù)鼗貞?yīng):共造成“3名小孩,2個(gè)大人”死亡,其中包括一家三口,事故原因等情況將進(jìn)一步通報(bào)

      瀟湘晨報(bào)
      2026-04-07 12:48:14
      韓國女星懷孕后,每天和丈夫一起洗澡,節(jié)目畫面公開后驚呆全場(chǎng)

      韓國女星懷孕后,每天和丈夫一起洗澡,節(jié)目畫面公開后驚呆全場(chǎng)

      好賢觀史記
      2026-04-07 11:26:38
      陳光標(biāo)稱已向嫣然醫(yī)院捐贈(zèng)1000萬元,張雪評(píng)論“標(biāo)哥真男人”,二手車商:車沒收成,但心里很暖

      陳光標(biāo)稱已向嫣然醫(yī)院捐贈(zèng)1000萬元,張雪評(píng)論“標(biāo)哥真男人”,二手車商:車沒收成,但心里很暖

      極目新聞
      2026-04-06 21:04:20
      臺(tái)灣普通家庭到底啥水平?我去了才知道,答案很現(xiàn)實(shí)也讓人意外

      臺(tái)灣普通家庭到底啥水平?我去了才知道,答案很現(xiàn)實(shí)也讓人意外

      復(fù)轉(zhuǎn)這些年
      2026-04-06 23:34:04
      美軍宣稱摸清中國導(dǎo)彈庫存!俄專家:中國解放軍可以半小時(shí)定勝負(fù)

      美軍宣稱摸清中國導(dǎo)彈庫存!俄專家:中國解放軍可以半小時(shí)定勝負(fù)

      共工之錨
      2026-04-07 00:20:47
      法國央行賣出所有在美托管金條 黃金儲(chǔ)備戰(zhàn)略轉(zhuǎn)移且實(shí)現(xiàn)三贏

      法國央行賣出所有在美托管金條 黃金儲(chǔ)備戰(zhàn)略轉(zhuǎn)移且實(shí)現(xiàn)三贏

      財(cái)聯(lián)社
      2026-04-07 11:48:04
      鄭麗文來大陸,馬英九題字瞬間爆紅,書法愛好者該如何入門?

      鄭麗文來大陸,馬英九題字瞬間爆紅,書法愛好者該如何入門?

      書畫相約
      2026-04-07 08:09:24
      2026-04-07 14:28:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動(dòng)態(tài)
      12430文章數(shù) 176445關(guān)注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      陳麗華47歲倒追遲重瑞 財(cái)富傳承披露:1兒2女均在富華

      頭條要聞

      陳麗華47歲倒追遲重瑞 財(cái)富傳承披露:1兒2女均在富華

      體育要聞

      官宣簽約“AI球員”,這支球隊(duì)被罵慘了...

      娛樂要聞

      張藝上浪姐惹爭(zhēng)議 黃景瑜前妻發(fā)文內(nèi)涵

      財(cái)經(jīng)要聞

      2026年,全國租房市場(chǎng)還有波降價(jià)潮

      汽車要聞

      廣汽電池獨(dú)立戰(zhàn),背后的產(chǎn)業(yè)鏈博弈

      態(tài)度原創(chuàng)

      教育
      時(shí)尚
      游戲
      健康
      本地

      教育要聞

      學(xué)校的校規(guī)真的可以這么離譜嗎?

      今年最火的4雙平底鞋,配白裙子穿好看又松弛!

      PS6真要2027年發(fā)售了?AMD重大爆料 芯片驗(yàn)證已啟動(dòng)

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      本地新聞

      跟著歌聲游安徽,聽古村回響

      無障礙瀏覽 進(jìn)入關(guān)懷版