<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      清華打破強(qiáng)化學(xué)習(xí)安全性悖論,14項(xiàng)測(cè)試基準(zhǔn)任務(wù)全SOTA

      0
      分享至


      新智元報(bào)道

      編輯:LRST

      【新智元導(dǎo)讀】清華大學(xué)李升波教授團(tuán)隊(duì)提出RACS算法,通過引入「探險(xiǎn)者」策略主動(dòng)探索違規(guī)邊界,破解安全強(qiáng)化學(xué)習(xí)的「安全性悖論」。該方法在不增加采樣成本的前提下,顯著提升違規(guī)樣本質(zhì)量與系統(tǒng)安全認(rèn)知,實(shí)現(xiàn)安全與性能的雙贏,刷新多項(xiàng)基準(zhǔn)的SOTA成績(jī)。

      隨著強(qiáng)化學(xué)習(xí)(RL)在虛擬世界的統(tǒng)治級(jí)表現(xiàn),將其遷移至自動(dòng)駕駛、機(jī)器人控制等真實(shí)物理系統(tǒng)已成為行業(yè)共識(shí)。然而,物理世界的高風(fēng)險(xiǎn)特性畫出了一道不可逾越的紅線——「零約束違反」。

      為了守住這道紅線,學(xué)界提出了多種方案:OpenAI結(jié)合拉格朗日乘子法動(dòng)態(tài)權(quán)衡安全與性能,UC Berkeley提出的CPO算法利用信賴域?qū)⒉呗韵拗圃诳尚锌臻g內(nèi)。

      然而,現(xiàn)有方法始終面臨一個(gè)核心痛點(diǎn):策略難以做到嚴(yán)格的「零違反」。大多數(shù)算法只能將違規(guī)控制在極低水平,一旦試圖追求絕對(duì)的零違規(guī),就會(huì)遭遇巨大阻力。

      清華大學(xué)李升波教授課題組于安全強(qiáng)化學(xué)習(xí)領(lǐng)域獲得突破性進(jìn)展,首次在理論層面揭示并證明了安全強(qiáng)化學(xué)習(xí)(Safe RL)中的一個(gè)反直覺現(xiàn)象——「安全性悖論」(Safety Paradox):策略越追求安全,反而可能越不安全。


      論文鏈接:https://openreview.net/forum?id=BHSSV1nHvU

      代碼倉庫:https://github.com/yangyujie-jack/Feasible-Dual-Policy-Iteration

      在安全強(qiáng)化學(xué)習(xí)中,智能體通常依賴交互數(shù)據(jù)學(xué)習(xí)一個(gè)可行性函數(shù)(Feasibility Function),以此判斷當(dāng)前狀態(tài)是否長期安全,從而規(guī)避危險(xiǎn)區(qū)域。

      然而,研究通過嚴(yán)格的理論證明揭示了一個(gè)嚴(yán)峻事實(shí):

      隨著策略變得越來越安全,其產(chǎn)生的違規(guī)樣本會(huì)變得極度稀疏。這直接導(dǎo)致可行性函數(shù)的估計(jì)誤差急劇增大,進(jìn)而使指導(dǎo)策略優(yōu)化的約束函數(shù)出現(xiàn)偏差,最終導(dǎo)致策略安全性崩塌。

      這就像一個(gè)從未見過懸崖的人,在行走時(shí)即便再小心翼翼,也會(huì)因?yàn)槿狈?duì)「懸崖邊緣」的確切認(rèn)知,而無法精準(zhǔn)判斷危險(xiǎn)界限究竟在哪里。越是刻意追求安全,對(duì)危險(xiǎn)邊界的認(rèn)知就越模糊,最終反而導(dǎo)致安全防線失效。 這就是所謂的「安全性悖論」——策略陷入了一個(gè)自我挫敗的死循環(huán)。


      針對(duì)這一困境,團(tuán)隊(duì)提出了Region-wise Actor-Critic-Scenery(RACS)算法,通過引入專門收集違規(guī)樣本的「探險(xiǎn)者」策略,成功打破悖論,在權(quán)威基準(zhǔn)Safety-Gymnasium上刷新了SOTA成績(jī),該工作發(fā)表于人工智能頂會(huì)ICLR 2026。

      破局之道RACS算法

      既然「不敢越雷池一步」會(huì)導(dǎo)致認(rèn)知盲區(qū),那么破解之道便是主動(dòng)探險(xiǎn)、直面危險(xiǎn)。

      研究團(tuán)隊(duì)提出了Region-wise Actor-Critic-Scenery(RACS)算法,創(chuàng)造性地引入了雙策略架構(gòu):

      (1)原始策略(Primal Policy):扮演「守規(guī)矩的執(zhí)行者」。它負(fù)責(zé)在滿足安全約束的前提下,盡可能最大化任務(wù)獎(jiǎng)勵(lì)。

      (2)對(duì)偶策略(Dual Policy):扮演「無畏的探險(xiǎn)者」。它的目標(biāo)與前者相反,旨在策略性地最大化約束違反,主動(dòng)觸探原始策略不敢涉足的危險(xiǎn)邊界。

      通過這種「左右互搏」的機(jī)制,RACS在不增加總采樣成本的前提下,顯著提升了關(guān)鍵違規(guī)樣本的比例,從而讓系統(tǒng)對(duì)「安全邊界」有了清晰、精準(zhǔn)的認(rèn)知。

      為了解決雙策略數(shù)據(jù)混合帶來的分布偏移(Distributional Shift)問題,RACS采用了重要性采樣(Importance Sampling)技術(shù)進(jìn)行數(shù)學(xué)修正,并約束對(duì)偶策略與原始策略間的KL散度,確保訓(xùn)練過程的平穩(wěn)收斂。


      實(shí)驗(yàn)結(jié)果:刷新SOTA

      研究團(tuán)隊(duì)在安全強(qiáng)化學(xué)習(xí)權(quán)威基準(zhǔn)Safety-Gymnasium上進(jìn)行了廣泛驗(yàn)證。結(jié)果表明,RACS在14項(xiàng)任務(wù)中的綜合性能達(dá)到了State-of-the-art(SOTA)水平:



      (1)安全性顯著提升RACS實(shí)現(xiàn)了最低的平均約束違反次數(shù)(Cost),顯著優(yōu)于現(xiàn)有的拉格朗日乘子法或信賴域方法。特別是在HalfCheetahVelocity、Walker2dVelocity等任務(wù)中,實(shí)現(xiàn)了嚴(yán)格的零約束違反

      (2)控制性能無退化在保證安全性的同時(shí),RACS的平均累積回報(bào)(Return)依然位居榜首,實(shí)現(xiàn)了安全與性能的雙贏。在高維的HumanoidVelocity、復(fù)雜的PointPush(推箱子導(dǎo)航避障)等多項(xiàng)高難度任務(wù)中,安全指標(biāo)與任務(wù)性能均名列前茅。

      為探究性能提升的根本原因,研究團(tuán)隊(duì)統(tǒng)計(jì)了增加對(duì)偶策略后的關(guān)鍵指標(biāo)變化:




      (1)違規(guī)樣本顯著增加:在所有 14 項(xiàng)任務(wù)中,對(duì)偶策略成功采集了大量高價(jià)值的違規(guī)樣本,大部分任務(wù)中的樣本量提升了一個(gè)數(shù)量級(jí)。

      (2)估計(jì)誤差大幅降低:統(tǒng)計(jì)顯示,可行性函數(shù)的擬合誤差顯著減小,尤其是「低估風(fēng)險(xiǎn)」(誤差小于零)的頻率大幅降低。這意味著系統(tǒng)不再將危險(xiǎn)狀態(tài)誤判為安全,從而從根本上提升了策略的安全性。

      總結(jié)與展望

      該研究從理論上揭示了強(qiáng)化學(xué)習(xí)中的「安全性悖論」,闡明了違規(guī)樣本稀疏性與可行性函數(shù)估計(jì)誤差之間的內(nèi)在因果。

      RACS算法通過對(duì)偶策略的「對(duì)抗式」探索打破了「安全性悖論」,證明了一個(gè)深刻的道理:為了真正的安全,必須充分地了解危險(xiǎn)。

      該研究為自動(dòng)駕駛、機(jī)器人等高風(fēng)險(xiǎn)場(chǎng)景下的強(qiáng)化學(xué)習(xí)落地提供了堅(jiān)實(shí)的理論基礎(chǔ)與有效的解決方案。

      參考資料:

      https://openreview.net/forum?id=BHSSV1nHvU

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      近期“熱播劇”排個(gè)名:生命樹第4、唐宮奇案第6、第一殺瘋了!

      近期“熱播劇”排個(gè)名:生命樹第4、唐宮奇案第6、第一殺瘋了!

      手工制作阿殲
      2026-02-22 02:17:46
      杭州“天下第一財(cái)神廟”爆火!年輕人,凌晨來排隊(duì)!

      杭州“天下第一財(cái)神廟”爆火!年輕人,凌晨來排隊(duì)!

      汽車通研社
      2026-02-21 15:35:01
      中國深夜得到消息,特朗普火冒三丈!美媒納悶:中國為何如此淡定

      中國深夜得到消息,特朗普火冒三丈!美媒納悶:中國為何如此淡定

      頭條爆料007
      2026-02-21 14:46:36
      1-3到4-4!趙心童絕地反擊,半決賽暫平小鋼炮,11局6勝變3局2勝

      1-3到4-4!趙心童絕地反擊,半決賽暫平小鋼炮,11局6勝變3局2勝

      劉姚堯的文字城堡
      2026-02-22 06:10:40
      福建一處懸崖咖啡店走紅,不少游客春節(jié)挑戰(zhàn)打卡,店方:崖壁“座位”高約60米,專業(yè)教練陪同,普通人也能體驗(yàn)

      福建一處懸崖咖啡店走紅,不少游客春節(jié)挑戰(zhàn)打卡,店方:崖壁“座位”高約60米,專業(yè)教練陪同,普通人也能體驗(yàn)

      極目新聞
      2026-02-21 22:24:25
      初中生扶老人被訛22萬,真相不是你想象的那樣

      初中生扶老人被訛22萬,真相不是你想象的那樣

      科學(xué)發(fā)掘
      2026-02-21 22:40:26
      張一山跟發(fā)小聚會(huì)!新家又大又豪,別人都大叔了,他還像個(gè)小孩子

      張一山跟發(fā)小聚會(huì)!新家又大又豪,別人都大叔了,他還像個(gè)小孩子

      小娛樂悠悠
      2026-02-21 15:41:48
      我國唯一無法征服的大江,水能超三峽,卻沒有一座水電站

      我國唯一無法征服的大江,水能超三峽,卻沒有一座水電站

      阿諢體育
      2026-02-14 12:24:13
      日本“色情業(yè)”怪相:店開不下去,大久保公園卻生意更好了

      日本“色情業(yè)”怪相:店開不下去,大久保公園卻生意更好了

      這里是東京
      2026-02-17 16:20:51
      曼城2-1力克紐卡,英超積分榜距榜首僅2分,槍手壓力增大

      曼城2-1力克紐卡,英超積分榜距榜首僅2分,槍手壓力增大

      陳秣愛釣魚
      2026-02-22 06:12:44
      越來越亂!貝克漢姆或?qū)⒂瓉淼谝粋€(gè)長孫,但不是兒子的親生血脈

      越來越亂!貝克漢姆或?qū)⒂瓉淼谝粋€(gè)長孫,但不是兒子的親生血脈

      她不傾國傾城
      2026-02-08 15:21:22
      騎士簽下了二隊(duì)后場(chǎng)大將,他是NBA發(fā)展聯(lián)盟賽場(chǎng)上的頂級(jí)組織者?

      騎士簽下了二隊(duì)后場(chǎng)大將,他是NBA發(fā)展聯(lián)盟賽場(chǎng)上的頂級(jí)組織者?

      稻谷與小麥
      2026-02-22 02:02:43
      那藝娜被認(rèn)定劣跡藝人!靠說蹩腳中文,假扮俄羅斯美女走紅

      那藝娜被認(rèn)定劣跡藝人!靠說蹩腳中文,假扮俄羅斯美女走紅

      韓小娛
      2026-02-21 10:30:22
      志超科技董事長徐正民逝世

      志超科技董事長徐正民逝世

      界面新聞
      2026-02-21 21:55:50
      鮑爾默徹底開心了!不僅因?yàn)榭齑潆U(xiǎn)勝掘金,更因?yàn)檫@三點(diǎn)!

      鮑爾默徹底開心了!不僅因?yàn)榭齑潆U(xiǎn)勝掘金,更因?yàn)檫@三點(diǎn)!

      田先生籃球
      2026-02-21 06:44:59
      西方:中國不可怕,可怕的是燃?xì)廨啓C(jī)打破70年封鎖解決全球AI電荒

      西方:中國不可怕,可怕的是燃?xì)廨啓C(jī)打破70年封鎖解決全球AI電荒

      普覽
      2026-02-19 20:17:21
      談美國最高法院關(guān)稅裁決對(duì)中國經(jīng)濟(jì)的影響

      談美國最高法院關(guān)稅裁決對(duì)中國經(jīng)濟(jì)的影響

      冷峻視角下的世界
      2026-02-21 10:21:26
      34歲東北姑娘拿下81歲全球首富,長的很漂亮,一年抱倆娃身價(jià)上億

      34歲東北姑娘拿下81歲全球首富,長的很漂亮,一年抱倆娃身價(jià)上億

      云舟史策
      2025-09-13 07:37:04
      太陽官方更新傷情:布克髖部拉傷至少缺1周 海史密斯2-3周后復(fù)查

      太陽官方更新傷情:布克髖部拉傷至少缺1周 海史密斯2-3周后復(fù)查

      羅說NBA
      2026-02-22 05:39:30
      黃渤青島宴請(qǐng)?jiān)栏改福ur大餐擺滿桌,結(jié)婚多年的妻子氣質(zhì)真好

      黃渤青島宴請(qǐng)?jiān)栏改福ur大餐擺滿桌,結(jié)婚多年的妻子氣質(zhì)真好

      墨語家
      2026-02-19 18:24:53
      2026-02-22 06:59:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      14566文章數(shù) 66631關(guān)注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      貝加爾湖7名遇難者身份全部確認(rèn) 1家4口僅1人生還

      頭條要聞

      貝加爾湖7名遇難者身份全部確認(rèn) 1家4口僅1人生還

      體育要聞

      徐夢(mèng)桃:這是我第一塊銅牌 給我換個(gè)吉祥物

      娛樂要聞

      黃曉明澳門賭博輸十幾億 本人親自回應(yīng)

      財(cái)經(jīng)要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔(dān)當(dāng)”來了 方程豹首款轎車路跑信息曝光

      態(tài)度原創(chuàng)

      數(shù)碼
      手機(jī)
      家居
      公開課
      軍事航空

      數(shù)碼要聞

      AMD RX 9060 XT成功超頻4.769GHz!打破世界紀(jì)錄

      手機(jī)要聞

      三星Galaxy S26系列顏色曝光:將推6種配色,兩款為線上專屬

      家居要聞

      本真棲居 愛暖伴流年

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      硬核揭秘!福建艦“一馬當(dāng)先”底氣何在

      無障礙瀏覽 進(jìn)入關(guān)懷版