本文系统梳理强化学习(Reinforcement Learning, RL)的核心理论,从基本概念到贝尔曼方程,再到动态规划、蒙特卡洛和时间差分三大求解方法,构建清晰的知识脉络。特别地,我们将深入探讨马尔可夫性质与贝尔曼方程的内在联系,揭示它们如何共同构成强化学习问题建模与求解的理论基石。
1. 基本概念
1.1 马尔可夫决策过程(MDP):强化学习的标准建模框架
在强化学习中,几乎所有问题都被形式化为马尔可夫决策过程(Markov Decision Process, MDP)。MDP 提供了一个统一的数学框架,将智能体与环境的交互抽象为状态、动作、奖励和状态转移的组合。
一个 MDP 由五元组 (S,A,P,R,γ)(S, A, P, R, \gamma)(S,A,P,R,γ) 定义:
- SSS:状态空间,所有可能环境状态的集合;
- AAA:动作空间,智能体可执行动作的集合;
- P(s′,r∣s,a)P(s', r \mid s, a)P(s′,r∣s,a):状态-奖励转移概率函数,表示在状态 sss 执行动作 aaa 后转移到状态 s′s's′ 并获得奖励 rrr 的联合概率;
- R(s,a)R(s, a)R(s,a) 或 R(s,a,s′)R(s, a, s')R(s,a,s′):奖励函数,通常定义为期望奖励:
R(s,a)=E[rt+1∣st=s,at=a] R(s,a) = \mathbb{E}[r_{t+1} \mid s_t = s, a_t = a] R(s,a)=E[rt+1∣st=s,at=a] - γ∈[0,1]\gamma \in [0,1]γ∈[0,1]:折扣因子,用于权衡即时奖励与未来奖励的重要性。
关键假设:马尔可夫性质
MDP 的核心前提是马尔可夫性质,即:
P(st+1∣st,at,st−1,at−1,… )=P(st+1∣st,at) P(s_{t+1} \mid s_t, a_t, s_{t-1}, a_{t-1}, \dots) = P(s_{t+1} \mid s_t, a_t) P(st+1∣st,at,st−1,at−1,…)=P(st+1∣st,at)
换句话说,未来的状态仅依赖于当前状态和动作,而与历史轨迹无关。这一假设极大简化了建模复杂度,使得我们无需记忆完整历史即可预测未来。虽然现实中许多任务(如部分可观测环境)不完全满足该性质,但通过设计包含历史信息的状态表示(如使用RNN或堆叠帧),可以近似满足马尔可夫性,从而使问题可解。
1.2 奖励函数(Reward Function)
奖励是环境对智能体行为的即时反馈,为标量信号。
- 在 MDP 中,奖励依赖于当前状态和动作:
R(s,a)=E[rt+1∣st=s,at=a] R(s,a) = \mathbb{E}[r_{t+1} \mid s_t = s, a_t = a] R(s,a)=E[rt+1∣st=s,at=a]
其中 rt+1r_{t+1}rt+1 是执行动作 aaa 后获得的即时奖励。
1.3 回报(Return)
回报是从当前时刻开始,未来所有奖励的折扣加权和,用于衡量长期性能。
Gt=∑k=0∞γkrt+k+1 G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1} Gt=k=0∑∞γkrt+k+1
- 符号说明:
- GtG_tGt:时刻 ttt 的回报;
- rt+k+1r_{t+k+1}rt+k+1:第 t+k+1t+k+1t+k+1 步的即时奖励;
- γ∈[0,1]\gamma \in [0,1]γ∈[0,1]:折扣因子,控制未来奖励的重要性。
- γ=0\gamma = 0γ=0:只关注当前奖励;
- γ→1\gamma \to 1γ→1:重视长期回报;
- 使用 γ<1\gamma < 1γ<1 可避免无限回报发散,并体现未来不确定性。
1.4 价值函数(Value Function)
价值函数衡量策略的长期表现,是强化学习中评估与优化策略的核心工具。
(1)状态价值函数 Vπ(s)V_\pi(s)Vπ(s)
在策略 π\piπ 下,从状态 sss 出发的期望回报:
Vπ(s)=Eπ[Gt∣st=s] V_\pi(s) = \mathbb{E}_\pi[G_t \mid s_t = s]