<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      上交博士最新思考:僅用兩個問題講清強化學習

      0
      分享至



      從「試錯」到「優化」,RL 的統一思維框架。

      編譯丨鄭佳美

      編輯丨馬曉寧

      人工智能領域發展到現在,強化學習(RL)已經成為人工智能中最令人著迷也最核心的研究方向之一。它試圖解決這樣一個問題:當智能體沒有現成答案時,如何通過與環境的交互,自主學會最優行為?

      聽起來簡單,做起來卻異常復雜。幾十年來,研究者提出了成百上千種算法,從最早的Q-learning到后來基于深度學習的DDPG、SAC、PPO、IQL……每種方法都有自己的原理、參數與假設,看起來彼此獨立,仿佛一座龐大而混亂的迷宮。

      對于剛接觸強化學習的人來說,這種復雜性常常令人挫敗:我們似乎在學習無數名字,卻始終難以看清它們之間的聯系。

      然而,最近有一篇由上海交通大學與上海期智研究院的博士生 Kun Lei 發布的博客提出了一個令人眼前一亮的框架:所有強化學習算法,其實都可以通過兩個問題來理解,第一,數據從哪里來?第二,策略更新有多頻繁?

      就是這兩個看似樸素的問題,像兩根主線一樣,把強化學習的世界重新梳理清楚。從它們出發,我們可以發現:復雜的 RL 算法不過是在這兩根軸上移動的不同點位。

      而當這一結構被揭示出來,整個算法邏輯突然變得直觀、有序,也更容易被理解。


      博客地址:https://lei-kun.github.io/blogs/rl.html

      01
      數據從哪里來

      強化學習的過程,本質上是智能體不斷收集經驗、并用這些經驗改進策略的循環。不同算法的差異,很大程度上取決于它們依賴什么樣的數據。

      最直接的方式是“在策略學習。在這種模式下,智能體一邊與環境交互,一邊學習。每一個動作都帶來新的數據,立刻被用于更新模型。這類方法像是不斷在現場實踐的學生,代表算法包括 PPO、SAC 等。

      在線學習的優點是靈活、適應性強,但也意味著代價高昂,每次試錯都可能耗費時間、能量,甚至造成損失。

      相對保守的是“離策略學習”。它允許智能體反復使用過去的經驗,而不必每次都重新與環境交互。算法會把這些經驗保存下來,在需要時反復采樣學習。DQN、TD3、DDPG 都屬于這一類。

      離策略學習提高了樣本利用率,也讓學習過程更穩定,是許多實際應用中的主流方案。

      還有一種方式更極端,叫做“離線學習”。這里,智能體完全依賴一個固定的數據集進行訓練,不能再與環境交互。這種方法看似受限,但在高風險場景中卻尤為重要,比如醫療、自動駕駛或機器人控制。

      算法必須在不試錯的情況下,從既有數據中學會盡可能好的決策,CQL、IQL 就是這類方法的代表。

      從在線到離線,數據的獲取方式逐漸從主動探索轉向被動利用。算法的選擇往往反映了任務的現實約束:能否安全地試錯?能否持續獲得新數據?試錯的代價是否可承受?這便是強化學習的第一個維度:數據從哪里來。


      02
      學習更新的節奏

      而強化學習的第二個維度,是學習更新的節奏。簡單來說,就是智能體多久評估一次策略,又多久調整一次行為。

      最簡單的方式是一種“一步式學習”。智能體在一個固定的數據集上訓練一次,學到一個策略后就不再改進。模仿學習就是典型例子。它速度快、風險低,適合那些對安全性要求高或數據有限的任務。

      另一種方式是“多步式學習”。算法在一批數據上多次更新,直到性能收斂,再重新收集新的數據。這是一種折中策略,既避免了頻繁交互的高成本,又能比一次性訓練獲得更好的表現。

      最具代表性的是“迭代式學習”。這類算法不斷在“收集數據—更新模型—再收集數據”的循環中進化,每一次交互都推動性能提升。它們像一個永不停歇的學習者,不斷探索未知、修正自身。PPO 和 SAC 就是這種方式的代表。

      從一步到多步,再到迭代,算法的更新節奏越來越密集,也意味著從靜態到動態的轉變。不同節奏之間,其實反映的是對穩定性和適應性的權衡。


      03
      一個更底層的統一

      在講清楚“數據從哪來”和“學習更新的節奏”這兩條主線之后,博客提出了一個更底層的統一視角:無論算法形式如何變化,所有強化學習方法其實都在做兩件事:評估當前策略、然后改進它。

      簡單來說,強化學習就像一個反復自我練習的過程:

      先評估,看看自己目前的策略表現得怎樣,哪些動作好、哪些不好;

      再改進,根據評估結果,調整策略,讓下一次決策更聰明一點。

      Q-learning、PPO、SAC……看起來名字各不相同,其實都在重復這兩個動作。唯一的區別,只是它們評估得方式不同改進的速度不同、或者用到的數據不同

      在博客中,作者用一組公式,把這兩步統一地寫了出來:

      評估階段(Policy Evaluation)就是去衡量“這套策略到底值不值”。算法會讓模型預測某個狀態下采取某個動作能得到多大的回報,然后和實際反饋進行比較。如果誤差太大,就調整模型,讓它的預期更接近現實。在線算法直接用新數據計算,離線或離策略算法則要通過重要性采樣、加權平均等方式修正舊數據的偏差。

      改進階段(Policy Improvement)是在得到新的評估結果后,優化策略本身。模型會傾向于選擇那些帶來更高期望回報的動作。但為了避免一下子“改過頭”,很多算法會加上約束或正則項,比如讓新策略不能偏離舊策略太多(這就是 PPO 的思想),或者在策略里保留一定的探索性(這就是 SAC 中熵正則的作用)。


      從這個角度看,所謂不同的強化學習算法,其實只是這兩個過程的不同實現。有的算法更注重評估的準確性,有的更強調改進的穩定性,有的頻繁更新、快速迭代,有的則保守謹慎、慢慢優化。

      當我們用“評估 + 改進”去看強化學習時,整個算法體系就像被抽絲剝繭地展現在眼前,所有方法都不再是孤立的技巧,而是這兩個動作的不同組合。

      在講清這兩條主線后,博客還進一步將視角延伸到了現實世界的智能系統,尤其是當下正在快速發展的機器人基礎模型。

      Kun Lei 指出這種以訓練節奏為核心的思考方式,與現代機器人基礎模型的訓練實踐高度契合。例如 Generalist 團隊的 GEN-0 與 Pi 的 pi_0.5,它們的成長過程就像一臺不斷運轉的數據飛輪。系統會持續吸收新的任務與場景,將它們整合進統一的語料庫,然后周期性地進行再訓練或微調。

      在這樣的機制下,多步式更新成為一種自然選擇。每一次訓練循環都帶來小幅、受控的改進,既保守到能避免分布坍塌的風險,又留下足夠的探索空間,使模型能夠在不斷擴展的數據語料中穩步成長。

      并且當模型逐漸接近能力瓶頸,無論是為了超越人類在特定任務上的上限,還是為了更精準地對齊人類表現,研究者通常會轉向迭代式的在線強化學習,針對特定目標進行更高頻、更精細的評估與改進。

      這種從多步更新向在線迭代過渡的訓練策略,已在實踐中被多次驗證有效,例如在 rl-100 等典型設定中,多步更新已經能夠在有限數據下取得穩定進步,而適量的在線 RL 則能在保持安全與穩定的前提下,將模型性能進一步推高。

      04
      走在 RL 前沿的年輕研究者


      作者主頁:https://lei-kun.github.io/?utm

      這篇博客的作者 Kun Lei 目前是上海交通大學與上海期智研究院的博士生,師從清華大學許華哲教授。

      Kun Lei 畢業于西南交通大學,在本科階段就開始從事人工智能與優化相關的研究,并曾與西南交通大學的郭鵬教授以及美國奧本大學的王毅教授合作開展科研工作。

      在讀博之前,他曾在上海期智研究院擔任研究助理,與許華哲教授共同進行強化學習和機器人智能方向的研究,后來又在西湖大學進行了為期四個月的科研實習,主要探索具身智能與強化學習算法在真實環境中的應用。

      Kun Lei 的研究方向涵蓋深度強化學習、具身智能與機器人學習。相比單純追求算法指標,他更關心這些算法如何真正落地,怎樣讓強化學習不僅在仿真環境中有效,也能在真實的機器人系統中穩定工作,怎樣讓智能體在有限的數據下快速學習、靈活適應。

      同時從他的博客也能看出,Kun Lei 的研究風格兼具工程實踐與直覺思考,他追求的不是更復雜的模型,而是更清晰的理解。這篇關于強化學習的文章正體現了這種思路,他沒有堆疊晦澀的公式,而是用兩個最本質的問題,理出強化學習背后的邏輯主線。

      而強化學習之所以讓人望而卻步,是因為它的理論體系龐大、公式繁復。初學者常常被各種貝爾曼方程、策略梯度、折扣回報等概念包圍,每一個術語都能展開成幾頁推導,但卻難以抓住核心。

      這篇博客的價值就在于,它把這一切重新拉回了原點。作者沒有從復雜的數學出發,而是提出兩個最簡單的問題:數據從哪里來?策略更新有多頻繁?

      這看似樸素的提問,其實觸及了強化學習的根。它幫助讀者重新看見算法的結構,不同方法之間不再是孤立的技巧,而是圍繞這兩個維度的不同取舍。通過這樣的視角,強化學習那片看似混亂的森林,突然變得有路可循。

      更重要的是,這種思路不僅僅是一種講解方式,更是一種思考問題的習慣。它提醒我們,復雜系統的背后往往隱藏著最簡單的規律,只是被層層公式和術語掩蓋。當我們回到原理本身,用結構化的方式去理解問題,復雜性就不再是障礙。

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      全網瘋傳的江門大瓜,年度最復雜的家庭倫理關系

      全網瘋傳的江門大瓜,年度最復雜的家庭倫理關系

      杭城村叔
      2025-12-17 21:01:23
      海南封關后,西門子能源燃機總裝基地開建

      海南封關后,西門子能源燃機總裝基地開建

      IT之家
      2025-12-18 20:53:09
      南京博物院盜賣文物,捐贈后人追查十年遭打碼“證據”糊弄,失蹤五件國寶還有多少黑幕

      南京博物院盜賣文物,捐贈后人追查十年遭打碼“證據”糊弄,失蹤五件國寶還有多少黑幕

      爆角追蹤
      2025-12-18 15:36:33
      柬埔寨GDP的40%—60%來源電詐 幕后以華人資本集團為主

      柬埔寨GDP的40%—60%來源電詐 幕后以華人資本集團為主

      原某報記者
      2025-12-18 10:17:38
      泡泡瑪特虧麻了!股價暴跌40%,Labubu從炒到5千跌到白菜價

      泡泡瑪特虧麻了!股價暴跌40%,Labubu從炒到5千跌到白菜價

      雷科技
      2025-12-18 18:47:47
      故宮一件我一件的含金量又上升了,南京博物館藏品細節越挖多了!

      故宮一件我一件的含金量又上升了,南京博物館藏品細節越挖多了!

      你食不食油餅
      2025-12-18 02:04:53
      21個市級政府,被約談

      21個市級政府,被約談

      新京報政事兒
      2025-12-18 14:59:53
      吳艷妮發布9宮格寫真引網友嘲諷,本人回懟

      吳艷妮發布9宮格寫真引網友嘲諷,本人回懟

      大象新聞
      2025-12-18 13:49:04
      海南封關之后當地網友吐槽物價變貴,油條7塊菠菜32一斤

      海南封關之后當地網友吐槽物價變貴,油條7塊菠菜32一斤

      映射生活的身影
      2025-12-18 22:03:06
      國家統計局原局長邱曉華:很多人按揭買的房子,房子的價格已經比首付還要低!它給人帶來的心理沖擊是很大的

      國家統計局原局長邱曉華:很多人按揭買的房子,房子的價格已經比首付還要低!它給人帶來的心理沖擊是很大的

      和訊網
      2025-12-18 17:46:52
      本田將暫停在華工廠生產

      本田將暫停在華工廠生產

      第一財經資訊
      2025-12-18 13:51:09
      微信新規已經明確!從12月開始,這類微信用戶將無法進行轉賬!

      微信新規已經明確!從12月開始,這類微信用戶將無法進行轉賬!

      復轉這些年
      2025-12-17 23:46:36
      國企也開始爆雷了!

      國企也開始爆雷了!

      微微熱評
      2025-12-19 00:35:12
      12月21冬至,比牛羊肉還補的是這“3樣”,營養全易消化,不上火

      12月21冬至,比牛羊肉還補的是這“3樣”,營養全易消化,不上火

      阿龍美食記
      2025-12-17 19:54:39
      普京宣布 “重要消息”

      普京宣布 “重要消息”

      每日經濟新聞
      2025-12-18 10:05:02
      對臺110億軍售后,不到24小時,美國收中方通知,13萬噸訂單沒了

      對臺110億軍售后,不到24小時,美國收中方通知,13萬噸訂單沒了

      時時有聊
      2025-12-18 20:55:37
      西藥見效快!中國三大運營商為美國解決詐騙電話,攔截率達99%

      西藥見效快!中國三大運營商為美國解決詐騙電話,攔截率達99%

      垛垛糖
      2025-12-18 12:16:13
      “南京博物院藏仇英名作現身拍賣市場”追蹤

      “南京博物院藏仇英名作現身拍賣市場”追蹤

      新華社
      2025-12-19 00:20:41
      美國底層女性垃圾白人曝光:社工直接給工具,就是讓他們吸死拉倒

      美國底層女性垃圾白人曝光:社工直接給工具,就是讓他們吸死拉倒

      忠于法紀
      2025-12-18 20:14:00
      公開婚紗照!知名女星宣布將于明年辦婚禮

      公開婚紗照!知名女星宣布將于明年辦婚禮

      深圳晚報
      2025-12-18 16:49:19
      2025-12-19 04:40:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7012文章數 20715關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽總決賽收官

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      體育要聞

      紐約尼克斯,板正的球隊

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      教育
      游戲
      藝術
      公開課
      軍事航空

      教育要聞

      從「雙減」到禁購試卷:命題權為何必須回到校內?

      《巫火》仍堅持是單人游戲 沒有升級到虛幻5計劃

      藝術要聞

      卡洛斯·杜蘭:不只是薩金特的老師!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      福建艦入列后首過臺海 臺方談為何"甲板上沒有艦載機"

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品久久久噜噜噜久久久| 国产一区二区三区内射高清| 婷婷激情综合| 乌苏市| 亚洲 a v无 码免 费 成 人 a v| 午夜免费福利小电影| 啪一啪射一射插一插| 妺妺窝人体色WWW看人体| 97人妻在线| 广安市| 美女裸体视频永久免费| 老妇女性较大毛片| 国产AV大陆精品一区二区三区| av色天堂| jizz国产| 少妇粉嫩小泬喷水视频| 中文熟妇人妻av在线| 黄www| 777色婷婷| 中文字幕一区二区人妻| 国产麻豆91网在线看| 天海翼一区| 无码中文幕熟AⅤ一区二区| 欧美最猛黑人xxxx| 国产精品一区二区久久岳| 精品久久久久中文慕人妻| 狠狠躁天天躁日日躁97| 性猛交ⅹxxx富婆视频| 色综合AV综合无码综合网站| 亚洲123区| 熟女激情| 国产日产欧产精品精品| 少妇真人直播免费视频| 永久黄片| 蜜桃视频网站| 欧美日本在线| 丰满熟女乱婬A片六区| 中文字幕在线日亚洲9| 亚洲无人区码一码二码三码的含义| 欧美日本激情| 台北县|