<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      強化學習的兩個「大坑」,終于被兩篇ICLR論文給解決了

      0
      分享至

      機器之心報道

      編輯:陳陳

      實時強化學習來了!AI 再也不怕「卡頓」。

      設想這樣一個未來場景:多個廚師機器人正在協作制作煎蛋卷。雖然我們希望這些機器人能使用最強大可靠的智能模型,但更重要的是它們必須跟上瞬息萬變的節奏 —— 食材需要在精準時機添加,煎蛋過程需要實時監控以確保受熱均勻。只要機器人動作稍有延遲,蛋卷必定焦糊。它們還必須應對協作伙伴動作的不確定性,并做出即時適應性調整。



      實時強化學習

      然而,現有的強化學習算法多基于一種理想化的交互模式:環境與智能體輪流「暫停」以等待對方完成計算或響應。具體表現為:

      環境暫停假設:當智能體進行計算決策和經驗學習時,環境狀態保持靜止;

      智能體暫停假設:當環境狀態發生轉移時,智能體暫停其決策過程。

      這種類似「回合制游戲」的假設,嚴重脫離現實,難以應對持續變化、延遲敏感的真實環境。



      下圖突出顯示了智能體在實時環境中出現的兩個關鍵困難,而這些在標準的回合制 RL 研究中是不會遇到的。

      首先,由于動作推理時間較長,智能體可能不會在環境的每一步都采取動作。這可能導致智能體采用一種新的次優性策略,稱之為無動作遺憾(inaction regret)。

      第二個困難是,動作是基于過去的狀態計算的,因而動作會在環境中產生延遲影響。這導致另一個新的次優性來源,這在隨機環境中尤為突出,稱之為延遲遺憾(delay regret)。

      在這樣的背景下,Mila 實驗室兩篇 ICLR 2025 論文提出了一種全新的實時強化學習框架,旨在解決當前強化學習系統在部署過程中面臨的推理延遲和動作缺失問題,使得大模型也能在高頻、連續的任務中實現即時響應。

      第一篇論文提出了一種最小化無動作遺憾的解決方案,第二篇提出了一種最小化延遲遺憾的解決方案。



      最小化無動作:交錯推理

      第一篇論文基于這樣一個事實:在標準的回合制強化學習交互范式中,隨著模型參數數量的增加,智能體無動作的程度也會隨之增加。因此,強化學習社區必須考慮一種新的部署框架,以便在現實世界中實現基礎模型規模化的強化學習。為此,本文提出了一個用于異步多過程推理和學習的框架。



      • 論文地址:https://openreview.net/pdf?id=fXb9BbuyAD
      • 代碼地址 https://github.com/CERC-AAI/realtime_rl
      • 論文標題: ENABLING REALTIME REINFORCEMENT LEARNING AT SCALE WITH STAGGERED ASYNCHRONOUS INFERENCE



      在該框架中,允許智能體充分利用其可用算力進行異步推理與學習。具體而言,本文提出了兩種交錯式推理算法,其核心思想是通過自適應調整并行推理過程的時序偏移,使智能體能夠以更快的固定間隔在環境中執行動作。

      本文證明:只要計算資源足夠,無論模型有多大、推理時間有多長,使用任意一種算法都可以做到在每一個環境步都執行動作,從而完全消除無動作遺憾。

      本文在 Game Boy 和 Atari 實時模擬中測試了提出的新框架,這些模擬的幀率和交互協議與人類在主機上實際玩這些游戲時所體驗到的幀率和交互協議同步。

      論文重點介紹了異步推理和學習在《寶可夢:藍》游戲中使用一個擁有 1 億參數的模型成功捕捉寶可夢時所展現的卓越性能。需要注意的是,智能體不僅必須快速行動,還必須不斷適應新的場景才能取得進展。



      此外,論文還重點介紹了該框架在像俄羅斯方塊這樣注重反應時間的實時游戲中的表現。結果證明,在使用異步推理和學習時,模型規模越大,性能下降的速度就越慢。然而,大模型性能下降的根本原因是延遲遺憾效應尚未得到解決。

      用單個神經網絡最小化無動作和延遲遺憾



      • 論文地址:https://openreview.net/pdf?id=YOc5t8PHf2
      • 項目地址:https://github.com/avecplezir/realtime-agent
      • 論文標題: HANDLING DELAY IN REAL-TIME REINFORCEMENT LEARNING

      第二篇論文提出了一種架構解決方案,用于在實時環境中部署神經網絡時最大限度地減少無響應和延遲,因為在實時環境中,交錯推理并非可行。順序計算在深度網絡中效率低下,因為深度網絡中每一層的執行時間大致相同。因此,總延遲會隨著網絡深度的增加而成比例增加,從而導致響應緩慢。

      這一局限性與早期 CPU 架構的缺陷如出一轍 —— 當指令只能串行處理時,會導致計算資源利用率低下且執行時間延長。現代 CPU 采用 pipelining 技術成功解決了這一問題,該技術允許多條指令的不同階段并行執行。

      受此啟發,本文在神經網絡中引入了并行計算機制:通過一次計算所有網絡層,有效降低了無動作遺憾。

      為了進一步減少延遲,本文引入了時序跳躍連接(temporal skip connections),使得新的觀測信息可以更快地傳遞到更深的網絡層,而無需逐層傳遞。

      該研究的核心貢獻在于:將并行計算與時序跳躍連接相結合,從而在實時系統中同時降低無動作遺憾和延遲遺憾。

      下圖對此進行了說明。圖中縱軸表示網絡層的深度,從初始觀測開始,依次經過第一層、第二層的表示,最終到達動作輸出;橫軸表示時間。因此,每一條箭頭代表一層的計算過程,所需時間為 δ 秒。

      在基線方法中(左圖),一個新的觀測必須依次穿過全部 N 層網絡,因此動作的輸出需要 N × δ 秒才能獲得。

      通過對各層進行并行計算(中圖),可以將推理吞吐量從每 Nδ 秒一次提高到每 δ 秒一次,從而減少無動作遺憾。

      最終,時序跳躍連接(如右圖所示)將總延遲從 Nδ 降低至 δ—— 其機制是讓最新觀測值僅需單次 δ 延遲即可傳遞至輸出層。從設計理念來看,該方案通過在網絡表達能力與時效信息整合需求之間進行權衡,從根本上解決了延遲問題。



      此外,用過去的動作 / 狀態來增強輸入可以恢復馬爾可夫特性,即使在存在延遲的情況下也能提高學習穩定性。正如結果所示,這既減少了延遲,也減少了與優化相關的遺憾。



      兩者結合使用

      交錯式異步推理與時序跳躍連接是彼此獨立的技術,但具有互補性。時序跳躍連接可減少模型內部從觀測到動作之間的延遲,而交錯推理則確保即使在使用大模型時,也能持續穩定地輸出動作。

      兩者結合使用,可以將模型規模與交互延遲解耦,從而使在實時環境中部署既具有強表達能力、又響應迅速的智能體成為可能。這對于機器人、自動駕駛、金融交易等高度依賴響應速度的關鍵領域具有重要意義。

      通過使大模型在不犧牲表達能力的前提下實現高頻率決策,這些方法為強化學習在現實世界的延遲敏感型應用中落地邁出了關鍵一步。

      https://mila.quebec/en/article/real-time-reinforcement-learning

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      小米交付中心車禍后續:醫療報告曝光,傷者確認死亡,家屬發聲

      小米交付中心車禍后續:醫療報告曝光,傷者確認死亡,家屬發聲

      鋭娛之樂
      2025-12-17 20:13:21
      61歲何晴離世僅3天,同學透露她一生遺憾!意外導致無法體面退休

      61歲何晴離世僅3天,同學透露她一生遺憾!意外導致無法體面退休

      銀河史記
      2025-12-16 16:13:16
      柬軍遭火力壓制,洪森押上三大賭注

      柬軍遭火力壓制,洪森押上三大賭注

      戎評
      2025-12-17 16:09:11
      健美冠軍王昆去世,年僅30歲,好友透露原因,甲流鍛煉誘發心肌炎

      健美冠軍王昆去世,年僅30歲,好友透露原因,甲流鍛煉誘發心肌炎

      180視角
      2025-12-17 08:10:16
      放棄爭奪數百億遺產,帶著女兒遠遁美國,如今才知道她有多清醒

      放棄爭奪數百億遺產,帶著女兒遠遁美國,如今才知道她有多清醒

      夢史
      2025-12-16 11:07:49
      副市長、市教育局局長、縣委書記、縣長等25人被處理

      副市長、市教育局局長、縣委書記、縣長等25人被處理

      南方都市報
      2025-12-17 19:50:20
      館藏明代仇英《江南春》為何現身拍賣市場?南京博物院回應

      館藏明代仇英《江南春》為何現身拍賣市場?南京博物院回應

      界面新聞
      2025-12-17 21:05:14
      泰軍炸掉詐騙園區、器官移植中心,洪森為何氣急敗壞?

      泰軍炸掉詐騙園區、器官移植中心,洪森為何氣急敗壞?

      胡嚴亂語
      2025-12-16 20:33:51
      快到年底了,一大波軍工企業又要出來騙經費了

      快到年底了,一大波軍工企業又要出來騙經費了

      超級學爸蛋總
      2025-12-17 18:54:55
      陳慧琳演唱會穿三角褲衩,五十多了合適嗎?人老心不老

      陳慧琳演唱會穿三角褲衩,五十多了合適嗎?人老心不老

      蕾爸退休日記
      2025-12-16 22:37:37
      “沒有人會對一捧土產生情感,直到自己親手壘起了一座”,廣州大學網紅教授發文懷念已故好友看哭全網;二人曾是大學室友,對方因公殉職

      “沒有人會對一捧土產生情感,直到自己親手壘起了一座”,廣州大學網紅教授發文懷念已故好友看哭全網;二人曾是大學室友,對方因公殉職

      極目新聞
      2025-12-17 20:51:53
      小米、華為鴻蒙智行、理想等先后報警,煙臺公安:打掉一個炒作新能源汽車負面信息團伙

      小米、華為鴻蒙智行、理想等先后報警,煙臺公安:打掉一個炒作新能源汽車負面信息團伙

      河南交通廣播1041
      2025-12-17 21:20:08
      海南封關動了誰的奶酪?答案顯而易見:新加坡為代表的傳統中轉港

      海南封關動了誰的奶酪?答案顯而易見:新加坡為代表的傳統中轉港

      知法而形
      2025-12-17 09:45:58
      上海空氣里飄著“焦味”?最新回應來了

      上海空氣里飄著“焦味”?最新回應來了

      看看新聞Knews
      2025-12-17 18:28:05
      3離4婚,2妻病逝,極品前夫哥許亞軍!

      3離4婚,2妻病逝,極品前夫哥許亞軍!

      凹凹滴
      2025-12-17 18:02:34
      日本通告全世界,或將強登釣魚島;中方已增兵,俄羅斯也選邊站了

      日本通告全世界,或將強登釣魚島;中方已增兵,俄羅斯也選邊站了

      現代小青青慕慕
      2025-12-17 12:58:18
      佳能63萬“惡意賠償”,咋這么明目張膽?

      佳能63萬“惡意賠償”,咋這么明目張膽?

      胡嚴亂語
      2025-12-16 20:29:21
      重情重義!曝許亞軍為何晴付10年醫藥費,延長生命偷偷打生活費

      重情重義!曝許亞軍為何晴付10年醫藥費,延長生命偷偷打生活費

      查爾菲的筆記
      2025-12-17 20:23:54
      貴州征求意見:支持探索“品牌白酒質押貸”等服務,盤活酒企資產緩解資金壓力

      貴州征求意見:支持探索“品牌白酒質押貸”等服務,盤活酒企資產緩解資金壓力

      界面新聞
      2025-12-09 13:16:31
      好利來大公子承認變女人!穿女裝做美甲,自稱“妹妹”,評論炸鍋

      好利來大公子承認變女人!穿女裝做美甲,自稱“妹妹”,評論炸鍋

      阿纂看事
      2025-12-17 16:50:40
      2025-12-17 23:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11943文章數 142512關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      本地
      時尚
      游戲
      教育
      公開課

      本地新聞

      云游安徽|踏過戰壕與石板,讀一部活的淮北史

      你算老幾?我算老己!

      德瑪西亞杯:沒什么好說得,UP零封FRK

      教育要聞

      一年制英碩畢業生的感悟!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品Aa| 久久久无码精品国产一区| 五十路av| 国产精品激情av在线播放| 日本强伦片中文字幕免费看| 龙南县| 亚洲狠狠| 亚洲av永久无码精品秋霞电影影院 | 亚洲熟女综合色一区二区三区| 保亭| 国产人人干| 亚洲色五月| 内射老妇bbwx0c0ck| 第一福利精品| 国产农村激情免费专区| 日本伊人色综合网| 亚洲3p无码一区二区三区| 91精品在线播放| jizzav| 青柠影院免费观看高清电视剧丁香| 国产无吗一区二区三区在线欢| 人妻第一页| 亚洲精品国产精品乱码桃花| 一区二区淫网| 中文字幕在线亚洲| 肥白大屁股bbwbbwhd| 中文字幕人妻少妇引诱隔壁| 大荔县| 熟女国产精品网站| 久久精品国产亚洲AⅤ无码| 亚洲人成电影在线播放| 国产网红女主播精品视频| 日本无遮挡吸乳视频| 欧美2区| 熟女中文网站| 色哟哟AV| 嫩草研究院久久久精品| 亚洲 自拍 另类 欧美 综合| 亚洲av网站| 免费无码黄十八禁网站| 免费中文熟妇在线影片|