<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      重構(gòu)跨域RL框架!理論驅(qū)動「雙重對齊」讓跨域遷移「質(zhì)變」

      0
      分享至



      本文作者來自香港城市大學(xué)、伊利諾伊大學(xué)厄巴納 - 香檳分校、騰訊、中國電信人工智能研究院、清華大學(xué)等機(jī)構(gòu)。作者包括喬鐘健、楊瑞、呂加飛、白辰甲、李秀、高思陽、邱爽。其中,第一作者為香港城市大學(xué)喬鐘健,通訊作者為香港城市大學(xué)邱爽。



      • 論文標(biāo)題:Efficient Cross-Domain Offline Reinforcement Learning with Dynamics- and Value-Aligned Data Filtering
      • 文章鏈接:https://arxiv.org/pdf/2512.02435

      在現(xiàn)實(shí)世界中通過強(qiáng)化學(xué)習(xí)訓(xùn)練智能體,往往需要大量在線試錯與環(huán)境探索,這不僅成本高昂,還可能帶來顯著安全風(fēng)險:機(jī)器人可能因試錯而損壞,自動駕駛的在線探索可能危及行車安全,而持續(xù)采集交互數(shù)據(jù)本身也代價巨大。因此,離線強(qiáng)化學(xué)習(xí)(offline RL)通過直接利用歷史靜態(tài)數(shù)據(jù)進(jìn)行策略學(xué)習(xí),規(guī)避了持續(xù)在線交互需求,為在高成本、高風(fēng)險場景中應(yīng)用強(qiáng)化學(xué)習(xí)提供了更可行的路徑,成為推動強(qiáng)化學(xué)習(xí)走向真實(shí)世界的關(guān)鍵方向。

      然而,當(dāng)目標(biāo)環(huán)境數(shù)據(jù)稀缺時(例如,新部署的機(jī)器人僅擁有少量演示數(shù)據(jù)),僅憑目標(biāo)域數(shù)據(jù)難以支撐高性能策略的學(xué)習(xí)。這一困境催生了跨域離線強(qiáng)化學(xué)習(xí)(Cross-Domain Offline RL)這一范式 —— 它致力于借助源域(如動力學(xué)存在差異但數(shù)據(jù)豐富的仿真環(huán)境)中的知識,彌補(bǔ)目標(biāo)域數(shù)據(jù)不足,為數(shù)據(jù)匱乏的目標(biāo)域注入學(xué)習(xí)動能,促進(jìn)目標(biāo)域完成策略學(xué)習(xí)。

      雖然跨領(lǐng)域離線強(qiáng)化學(xué)習(xí)的出發(fā)點(diǎn)很好,但源域與目標(biāo)域之間往往存在動力學(xué)偏移(Dynamics Misalignment),即狀態(tài)轉(zhuǎn)移動力學(xué)規(guī)律不一致。在這種情況下,直接合并源域和目標(biāo)域數(shù)據(jù)進(jìn)行訓(xùn)練會引發(fā)嚴(yán)重的分布外動力學(xué) (OOD Dynamics)問題:模型學(xué)習(xí)到的轉(zhuǎn)移規(guī)律難以在目標(biāo)域成立,因而性能往往會迅速退化,最終令訓(xùn)練崩潰。目前解決這一問題的主流范式是動力學(xué)對齊驅(qū)動的數(shù)據(jù)過濾:首先通過對比學(xué)習(xí)或最優(yōu)傳輸?shù)确绞蕉攘吭从驑颖竞湍繕?biāo)域的動力學(xué)偏移程度,然后過濾掉部分動力學(xué)明顯不一致的源域數(shù)據(jù),只保留那些動力學(xué)行為更接近目標(biāo)域的樣本參與訓(xùn)練。

      然而,這一范式在邏輯上依賴于一個極強(qiáng)的隱藏假設(shè):動力學(xué)相似性足以刻畫源域數(shù)據(jù)的可遷移性,只要源域樣本在轉(zhuǎn)移動力學(xué)上與目標(biāo)域的 “足夠接近”,源域數(shù)據(jù)便一定值得保留并用于訓(xùn)練。但這一假設(shè)忽略了源域數(shù)據(jù)的另一項(xiàng)關(guān)鍵屬性 —— 數(shù)據(jù)質(zhì)量。在現(xiàn)實(shí)問題中,源域不僅僅與目標(biāo)域存在動力學(xué)偏移,更重要的是源域數(shù)據(jù)所含學(xué)習(xí)信號也未必同等有效,進(jìn)而影響其對目標(biāo)域策略學(xué)習(xí)的實(shí)際貢獻(xiàn)。如果一組源域數(shù)據(jù)在動力學(xué)上與目標(biāo)域完全一致,卻是從環(huán)境中隨機(jī)收集的低質(zhì)量數(shù)據(jù),它對學(xué)習(xí)目標(biāo)域策略的貢獻(xiàn)真的大嗎?

      研究動機(jī):動力學(xué)對齊真的充分嗎?



      為了探究上述問題,作者們設(shè)計了一個啟發(fā)性實(shí)驗(yàn):在 Hopper 機(jī)器人控制任務(wù)中,源域數(shù)據(jù)由兩種類別構(gòu)成:動力學(xué)對齊,但低質(zhì)量的隨機(jī)樣本;以及存在動力學(xué)偏差,但高質(zhì)量的專家樣本。按照現(xiàn)有的 IGDF 等方法,由于專家樣本存在動力學(xué)偏差,它們會被立刻過濾掉,最終只會保留隨機(jī)樣本進(jìn)行策略訓(xùn)練。然而,隨機(jī)樣本對策略性能的提升是相當(dāng)有限的,這導(dǎo)致最終策略僅僅收斂到次優(yōu)性能。這表明,低質(zhì)量源域數(shù)據(jù)提供的有效信息較少,進(jìn)而削弱其對目標(biāo)域策略學(xué)習(xí)的貢獻(xiàn)。

      針對現(xiàn)有方法所存在的問題,論文首先從理論層面定位了其根源所在:現(xiàn)有跨域離線強(qiáng)化學(xué)習(xí)的主流分析框架與其真正的學(xué)習(xí)目標(biāo)并不匹配。這一錯位直接導(dǎo)致現(xiàn)有方法只聚焦于動力學(xué)對齊,系統(tǒng)性忽視了源域數(shù)據(jù)質(zhì)量。為此,論文進(jìn)一步重構(gòu)理論框架,通過直接推導(dǎo)目標(biāo)域策略學(xué)習(xí)的次優(yōu)性差距(sub-optimality gap)上界,從理論上明確:高效的跨域離線強(qiáng)化學(xué)習(xí)必須兼顧動力學(xué)偏移與價值偏差。在該理論結(jié)論驅(qū)動下,論文提出DVDF 方法:設(shè)計統(tǒng)一的數(shù)據(jù)過濾框架同時實(shí)現(xiàn)源域樣本的動力學(xué)對齊與價值對齊,選擇 “既像又值” 的源域數(shù)據(jù)用于訓(xùn)練。DVDF 可作為插件(plug-in)模塊無縫集成到現(xiàn)有的方法中(如 IGDF、OTDF 等),并帶來穩(wěn)定的性能提升。

      理論重構(gòu):修正跨域離線強(qiáng)化學(xué)習(xí)的優(yōu)化目標(biāo)

















      動力學(xué)和價值雙對齊的數(shù)據(jù)過濾框架

      基于以上分析,我們需要同時度量價值對齊和動力學(xué)對齊程度。對于動力學(xué)對齊,我們可采用現(xiàn)有工作中成熟的方案,如對比學(xué)習(xí)和最優(yōu)傳輸?shù)取N恼滦枰鉀Q的關(guān)鍵問題在于價值對齊程度的度量。為了解決這個問題,文章首先推導(dǎo)出了價值對齊項(xiàng)的上界:







      值得注意的是,預(yù)訓(xùn)練得到的優(yōu)勢函數(shù)的近似誤差不可忽視。為了進(jìn)一步降低近似誤差的影響,文章首先推導(dǎo)出了優(yōu)勢近似誤差的具體形式:





      然而,IQL 學(xué)習(xí)價值函數(shù)時,易受數(shù)據(jù)集中次優(yōu)動作的影響,導(dǎo)致價值函數(shù)常被低估,從而導(dǎo)致優(yōu)勢函數(shù)被高估。進(jìn)一步,為了解決該問題,我們選用了 Sparse Q-learning (SQL) 算法進(jìn)行預(yù)訓(xùn)練。SQL 通過在價值函數(shù)訓(xùn)練中顯式引入稀疏性,從而降低了次優(yōu)動作對價值估計的影響,能夠估計出更準(zhǔn)確的優(yōu)勢函數(shù)。











      實(shí)驗(yàn)驗(yàn)證

      1. 動力學(xué)偏移場景下的性能對比

      論文中設(shè)計了多個動力學(xué)偏移場景以驗(yàn)證 DVDF 的有效性。論文通過在四種機(jī)器人控制任務(wù)中(halfcheetah, hopper, walker2d, ant)引入兩種動力學(xué)偏移:關(guān)節(jié)偏移(kinematic shifts)和形體偏移(morphology shifts)以構(gòu)建源域環(huán)境,并在相應(yīng)環(huán)境中收集不同質(zhì)量的離線數(shù)據(jù)以構(gòu)建源域數(shù)據(jù)集。同時,論文直接從標(biāo)準(zhǔn)的 D4RL 數(shù)據(jù)集中進(jìn)行采樣以構(gòu)建目標(biāo)域數(shù)據(jù)集。下表展示了在動態(tài)偏移場景下 DVDF 和多個基線方法的標(biāo)準(zhǔn)化得分(Normalized Score)對比。可以看出,DVDF 在絕大多數(shù)數(shù)據(jù)集中的性能都優(yōu)于基線方法,這是因?yàn)?DVDF 利用了源域數(shù)據(jù)集中的數(shù)據(jù)質(zhì)量的信息,能夠篩選出更具有價值的高質(zhì)量樣本。

      具體而言,在關(guān)節(jié)偏移場景下,DVDF 與多個基線方法的標(biāo)準(zhǔn)化得分對比。DVDF 為基礎(chǔ)算法 IGDF 和 OTDF 帶來了顯著的性能提升:DVDF-IGDF 在 20 個任務(wù)中的 16 個上超越了原 IGDF 方法,總分從 1001.6 提升至 1164.7,增幅達(dá) 16.3%;DVDF-OTDF 則在 15 個任務(wù)上超越了原 OTDF 方法,總分從 986.5 提升至 1172.3,增幅達(dá) 18.8%。在形體偏移這一設(shè)定下,DVDF 依然保持了顯著的性能優(yōu)勢。DVDF-IGDF 在 20 個任務(wù)中的 16 個上超越了原 IGDF 方法,總分從 1039.0 提升至 1198.7,增幅達(dá) 15.4%;DVDF-OTDF 則在 14 個任務(wù)上超越了原 OTDF 方法,總分從 1042.1 提升至 1156.3,增幅達(dá) 11.0%。





      2. 消融實(shí)驗(yàn)

      在消融實(shí)驗(yàn)部分,論文主要分析了分別使用 SQL 和 IQL 算法進(jìn)行優(yōu)勢函數(shù)預(yù)訓(xùn)練對策略性能和優(yōu)勢估計偏差的影響。如下圖所示,相比于 IQL 算法,使用 SQL 算法進(jìn)行優(yōu)勢函數(shù)預(yù)訓(xùn)練能夠得到更高的策略性能以及更低的優(yōu)勢估計誤差。



      3. 參數(shù)敏感性實(shí)驗(yàn)





      總結(jié)

      本論文聚焦于動力學(xué)偏移下的跨域離線強(qiáng)化學(xué)習(xí),通過實(shí)驗(yàn)和理論層面的探究,證明了動力學(xué)和價值雙重對齊對于跨域離線強(qiáng)化學(xué)習(xí)至關(guān)重要。基于這一發(fā)現(xiàn),論文提出全新的跨域離線強(qiáng)化學(xué)習(xí)框架 DVDF。通過在源域上預(yù)訓(xùn)練優(yōu)勢函數(shù)來度量樣本價值,并與動力學(xué)對齊相結(jié)合,DVDF 能夠識別并篩選出對策略學(xué)習(xí)有價值源域樣本。在多種場景下的實(shí)驗(yàn)結(jié)果表明,DVDF 都展示了比基線算法更高的性能,充分驗(yàn)證了其有效性。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      為什么WTO很少被提起了?中國入世談判花了15年,如今幾乎被架空

      為什么WTO很少被提起了?中國入世談判花了15年,如今幾乎被架空

      古史青云啊
      2026-04-07 14:52:09
      透露什么信號?蘇林一人身兼兩大關(guān)鍵職務(wù),打破越南領(lǐng)導(dǎo)權(quán)力架構(gòu)

      透露什么信號?蘇林一人身兼兩大關(guān)鍵職務(wù),打破越南領(lǐng)導(dǎo)權(quán)力架構(gòu)

      40度觀察
      2026-04-07 17:40:54
      25歲小伙不敢脫掉上衣,只因胸前密密麻麻長著……在福建這家醫(yī)院,他重獲新生

      25歲小伙不敢脫掉上衣,只因胸前密密麻麻長著……在福建這家醫(yī)院,他重獲新生

      福建衛(wèi)生報
      2026-04-07 20:05:47
      4月7日突發(fā)!張雪峰妻子李麗倩正面回應(yīng):我不是博士,也不在河南

      4月7日突發(fā)!張雪峰妻子李麗倩正面回應(yīng):我不是博士,也不在河南

      行者聊官
      2026-04-07 19:07:17
      張本智和觀戰(zhàn)決賽面露恐懼!日本球迷盼他退位:松島已成日乒最強(qiáng)

      張本智和觀戰(zhàn)決賽面露恐懼!日本球迷盼他退位:松島已成日乒最強(qiáng)

      顏小白的籃球夢
      2026-04-07 08:22:42
      美媒:“無法無天的世界代價高昂”

      美媒:“無法無天的世界代價高昂”

      參考消息
      2026-04-07 16:50:06
      研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

      研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

      黯泉
      2026-04-01 17:28:39
      東風(fēng)導(dǎo)彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      東風(fēng)導(dǎo)彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      番外行
      2026-03-31 08:28:28
      10萬億財政轉(zhuǎn)移支付,被誰拿走了?

      10萬億財政轉(zhuǎn)移支付,被誰拿走了?

      國民經(jīng)略
      2026-04-07 12:10:36
      剛從日本回來,說點(diǎn)不中聽的:日本的真實(shí)面目,可能讓你很意外

      剛從日本回來,說點(diǎn)不中聽的:日本的真實(shí)面目,可能讓你很意外

      復(fù)轉(zhuǎn)這些年
      2026-04-01 09:17:19
      退役11年,周薪仍超9萬鎊!亨利這是妥妥的人生贏家

      退役11年,周薪仍超9萬鎊!亨利這是妥妥的人生贏家

      樂道足球
      2026-04-07 17:17:10
      突然!以色列,發(fā)動大規(guī)模空襲!霍爾木茲海峽,傳來最新消息

      突然!以色列,發(fā)動大規(guī)模空襲!霍爾木茲海峽,傳來最新消息

      數(shù)據(jù)寶
      2026-04-07 21:16:12
      年卡1.3萬高端健身房,字節(jié)員工無法免費(fèi)享受了

      年卡1.3萬高端健身房,字節(jié)員工無法免費(fèi)享受了

      三言科技
      2026-04-07 18:43:10
      菊花和它是絕配!清肝明目,降火又潤肺~睡眠也好了~春天養(yǎng)肝正當(dāng)季!

      菊花和它是絕配!清肝明目,降火又潤肺~睡眠也好了~春天養(yǎng)肝正當(dāng)季!

      環(huán)京快爆
      2026-04-07 08:16:07
      詐尸了!哈梅內(nèi)伊死而復(fù)生?特朗普大秀軍功,伊朗做出了一個舉動

      詐尸了!哈梅內(nèi)伊死而復(fù)生?特朗普大秀軍功,伊朗做出了一個舉動

      起喜電影
      2026-04-07 16:21:57
      一個飛行員,美國為什么下這么大血本?1979年的教訓(xùn),至今不敢忘

      一個飛行員,美國為什么下這么大血本?1979年的教訓(xùn),至今不敢忘

      文史達(dá)觀
      2026-04-07 06:45:06
      網(wǎng)友:陳思誠祖宗18代都要感謝佟麗婭,她生了一個清爽版的自己

      網(wǎng)友:陳思誠祖宗18代都要感謝佟麗婭,她生了一個清爽版的自己

      好賢觀史記
      2026-04-07 13:55:11
      勞動節(jié)放假通知:連休5天,需調(diào)休

      勞動節(jié)放假通知:連休5天,需調(diào)休

      看看新聞Knews
      2026-04-07 17:02:25
      醫(yī)生告誡:每天睡前玩手機(jī)的人,不用半年時間,睡眠或有這6變化

      醫(yī)生告誡:每天睡前玩手機(jī)的人,不用半年時間,睡眠或有這6變化

      白話電影院
      2026-04-05 15:34:47
      湖北發(fā)布社會公眾風(fēng)險提示:強(qiáng)對流來襲,局地有冰雹

      湖北發(fā)布社會公眾風(fēng)險提示:強(qiáng)對流來襲,局地有冰雹

      界面新聞
      2026-04-07 13:32:37
      2026-04-07 23:15:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12701文章數(shù) 142616關(guān)注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

      頭條要聞

      特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

      體育要聞

      官宣簽約“AI球員”,這支球隊(duì)被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產(chǎn)

      財經(jīng)要聞

      10萬億財政轉(zhuǎn)移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態(tài)體驗(yàn)

      態(tài)度原創(chuàng)

      藝術(shù)
      本地
      手機(jī)
      游戲
      公開課

      藝術(shù)要聞

      美麗風(fēng)光看不盡

      本地新聞

      跟著歌聲游安徽,聽古村回響

      手機(jī)要聞

      蘋果折疊iPhone遭遇工程挫折?

      重磅!寶可夢系列最新作本周登陸Switch平臺 正式開玩

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版