網易首頁 > 網易號 > 正文申請入駐

《強化學習數學基礎》

2026-04-27 17:57:43　來源: 新浪財經

北京舉報

分享至

來源：專知

本文為強化學習（Reinforcement Learning, RL）教材的導讀章節，旨在闡述全書十個章節的結構、核心概念及其邏輯演進。全書分為兩大部分：基礎工具與算法實現。邏輯鏈條清晰：從基礎概念（狀態/動作/獎勵）延伸至馬爾可夫決策過程（MDP），引入貝爾曼方程（Bellman Equation）進行策略評估，隨后通過貝爾曼最優方程尋求最優策略。算法演進遵循從基于模型（Model-based, 動態規劃）到無模型（Model-free, 蒙特卡洛/時序差分），再從表格型方法（Tabular methods）擴展至函數近似（Function Approximation, 深度強化學習），最終收斂于策略梯度（Policy Gradient）及 Actor-Critic 架構。

https://github.com/MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning

在開啟學習之旅前，審閱 Figure 1 所示的本書“路線圖”至關重要。全書共十章，分為兩大部分：第一部分介紹基礎工具，第二部分闡述相關算法。這十章內容高度關聯，通常需遵循由淺入深的順序依次研習。

接下來，本文將帶您快速瀏覽這十章內容，涵蓋各章的主旨及其與前后章節的承接關系。此次概覽旨在幫助讀者建立對全書內容與結構的初步認知。若在此過程中遇到難以理解的概念，屬正常現象；希望在閱讀本概覽后，您能制定出適合自己的學習計劃。

第 1 章介紹了狀態（states）、動作（actions）、獎勵（rewards）、回報（returns）及策略（policies）等基礎概念，這些概念將廣泛應用于后續章節。本章首先通過“機器人尋找預設目標”的柵格世界（grid world）示例引入這些概念，隨后在馬爾可夫決策過程（Markov decision processes, MDP）框架下對其進行了更形式化的定義。
第 2 章引入了兩個關鍵要素：一個核心概念與一個核心工具。
- 核心概念是狀態價值（state value），其定義為智能體（agent）從某一狀態出發，若遵循給定策略所能獲得的期望回報。狀態價值越高，代表對應策略越優。因此，狀態價值可用于評估策略的優劣。
- 核心工具是貝爾曼方程（Bellman equation），用于分析狀態價值。簡言之，貝爾曼方程描述了所有狀態價值之間的內在聯系。通過求解該方程，即可獲得狀態價值。這一過程被稱為策略評估（policy evaluation），是強化學習中的基本概念。最后，本章還介紹了**動作價值（action values）**的概念。
第 3 章同樣引入了兩個關鍵要素。
- 核心概念是最優策略（optimal policy）。相較于其他策略，最優策略具有最大的狀態價值。
- 核心工具是貝爾曼最優方程（Bellman optimality equation）。顧名思義，它是貝爾曼方程的一種特殊形式。此處涉及一個根本性問題：強化學習的終極目標是什么？答案是獲取最優策略。貝爾曼最優方程的重要性在于，它是獲取最優策略的直接手段。讀者將會發現，該方程形式優雅，能幫助我們透徹理解諸多底層問題。
前三章構成了本書的第一部分，為后續內容奠定了必要的理論基礎。自第 4 章起，本書開始介紹學習最優策略的具體算法。
- 第 4 章介紹了三種算法：價值迭代（value iteration）、策略迭代（policy iteration）及截斷策略迭代（truncated policy iteration）。這三種算法關系密切：
價值迭代算法正是第 3 章中用于求解貝爾曼最優方程的算法。
策略迭代算法是價值迭代的擴展，同時也是第 5 章中蒙特卡洛（MC）算法的基礎。
截斷策略迭代則是一個統一框架，將價值迭代與策略迭代視為其特例。這三種算法具有相同的結構，即每次迭代均包含兩個步驟：價值更新與策略更新。價值與策略交替更新的理念廣泛存在于強化學習算法中，被稱為廣義策略迭代（generalized policy iteration, GPI）。此外，本章介紹的算法實質上屬于動態規劃（dynamic programming），需要系統模型（Model-based）；而后續章節介紹的算法均無需模型。在進入后續章節前，務必深入理解本章內容。
第 5 章開始介紹無需系統模型的無模型（model-free）強化學習算法。雖然這是本書首次引入無模型方法，但必須先填補一個知識空白：在沒有模型的情況下如何尋找最優策略？其背后的哲學很簡單：若無模型，則必有數據；若無數據，則必有模型；若二者皆無，則無計可施。強化學習中的“數據”是指智能體與環境交互時產生的經驗樣本（experience samples）。本章介紹了三種基于蒙特卡洛（MC）估計的算法，旨在從經驗樣本中學習最優策略。其中最簡單的 MC Basic 算法可由第 4 章的策略迭代算法直接擴展而來。理解 MC Basic 對于掌握基于蒙特卡洛的強化學習核心思想至關重要。在此基礎上，我們進一步引入了兩種更復雜但也更高效的 MC 算法。此外，本章還詳細闡述了**探索與利用（exploration and exploitation）**之間的根本權衡。
至此，讀者可能已經注意到各章內容之間的高度相關性。例如，研究 MC 算法（第 5 章）必須先理解策略迭代算法（第 4 章）；學習策略迭代則需先掌握價值迭代（第 4 章）；理解價值迭代需建立在貝爾曼最優方程（第 3 章）的基礎上；而理解貝爾曼最優方程又需預先學習貝爾曼方程（第 2 章）。因此，強烈建議讀者循序漸進地閱讀，否則后期章節的內容可能難以理解。
- 第 6 章旨在填補第 5 章到第 7 章之間的知識斷層。第 5 章的算法是非增量式的，而第 7 章的算法是**增量式（incremental）的。為此，第 6 章引入了隨機逼近（stochastic approximation）理論。隨機逼近是一類用于求解求根或優化問題的隨機迭代算法。經典的 Robbins-Monro 算法與隨機梯度下降（stochastic gradient descent, SGD）**均屬于隨機逼近算法的特例。盡管本章未直接介紹強化學習算法，但它為第 7 章的學習奠定了必要的數學基礎。
- 第 7 章介紹了經典的時序差分（temporal-difference, TD）算法。有了第 6 章的鋪墊，讀者在接觸 TD 算法時將不再感到突兀。從數學角度看，TD 算法可視為求解貝爾曼方程或貝爾曼最優方程的隨機逼近過程。與蒙特卡洛學習類似，TD 學習也是無模型的，但其增量形式帶來了顯著優勢。例如，它可以實現在線學習（online learning）：每接收到一個經驗樣本即可更新價值估計。本章介紹了諸如 Sarsa 和 Q-learning 等多種 TD 算法，并引入了**同策略（on-policy）與異策略（off-policy）**的重要概念。
- 第 8 章介紹了**價值函數近似（value function approximation）**方法。實際上，本章延續了對 TD 算法的探討，但采用了不同的狀態/動作價值表示方式。在前幾章中，價值通過表格（tabular method）表示，雖易于理解，但在處理大規模狀態或動作空間時效率低下。為解決此問題，我們引入了價值函數近似法。理解該方法的關鍵在于掌握其優化公式的三個步驟：
選擇目標函數以定義最優策略；
推導目標函數的梯度；
應用基于梯度的算法求解優化問題。該方法已成為表示價值的標準技術，具有重要意義。這也是**人工神經網絡（artificial neural networks）作為函數近似器被引入強化學習的切入點。著名的深度 Q 學習（deep Q-learning）**算法亦在本章介紹。
第 9 章介紹了**策略梯度（policy gradient）方法，它是眾多現代強化學習算法的基礎。策略梯度法是基于策略（policy-based）的，這與此前各章中基于價值（value-based）的方法相比，是本書的一次重大跨越。其核心思想十分直觀：選擇合適的標量度量指標，隨后通過梯度上升（gradient-ascent）**算法對其進行優化。第 9 章與第 8 章關系緊密，因為二者均依賴于函數近似的思想。策略梯度法的優勢眾多，例如在處理大規模狀態/動作空間時更高效，且具有更強的泛化能力和更高的樣本利用率。
第 10 章介紹了 Actor-Critic 方法。從某種視角看，Actor-Critic 指的是一種融合了基于策略與基于價值方法的架構；從另一視角看，它并非全新內容，仍屬于策略梯度方法的范疇。具體而言，它可以通過擴展第 9 章的策略梯度算法得到。在研習第 10 章之前，讀者需對第 8 章和第 9 章的內容有透徹的理解。
https://www.zhuanzhiai.com/vip/5c1a3fef82102f360e8ce52832f90e5b

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.