当前位置：首页>学习笔记>课程分享|强化学习课堂笔记第四课

课程分享|强化学习课堂笔记第四课

一、蒙特卡洛（MC）方法

蒙特卡洛方法是一种无模型的强化学习算法，通过采样完整的轨迹来估计状态价值函数。

核心更新公式

•符号说明：

￮：状态的当前价值估计

￮：学习率（步长），控制更新幅度

￮：从状态开始的折扣回报，定义为：

其中是折扣因子，是时刻获得的即时奖励。

核心思想

•直接使用完整轨迹的实际回报作为价值函数的目标值。

•无需依赖模型，仅通过与环境交互采样得到的经验数据进行学习。

•优点：无偏估计（期望等于真实价值）；缺点：方差大，需要完整轨迹才能更新。

二、一步时间差分（TD(0)）方法

一步时间差分是蒙特卡洛与动态规划的结合，通过**自举（Bootstrapping）**思想，利用下一状态的价值估计来更新当前状态价值。

核心推导与公式

用期望回报替换 MC 中的实际回报，并递推一步：

进一步展开：

因此得到 TD(0) 更新公式：

核心思想

•自举：用后续状态的价值估计来近似未来回报，无需等待轨迹结束。

•偏差与方差：相比 MC，方差更小（仅依赖一步奖励），但存在偏差（依赖价值估计）。

•适用于非完整轨迹的在线学习，效率更高。

三、n 步时间差分（TD(n)）方法

n 步时间差分是 TD(0) 的扩展，平衡了 MC（完整轨迹）与 TD(0)（单步）的偏差-方差权衡。

核心更新公式

用期望回报替换，并递推步：

•n 步回报：

•当时，TD(n) 退化为 MC 方法；当时，退化为 TD(0) 方法。

核心思想

•通过调整的大小，在偏差（依赖）和方差（依赖步奖励）之间取得平衡。

•结合了 MC 的低偏差和 TD 的高效性，是更通用的时间差分框架。

四、重要性采样（Importance Sampling）

重要性采样是**离策略（Off-policy）**学习的核心技术，用于在行为策略采集的数据上，估计目标策略的期望。

核心公式

设行为策略为（用于与环境交互），目标策略为（待优化），则目标策略下函数的期望可表示为：

•重要性权重：，用于修正行为策略与目标策略的分布差异。

•直观理解：通过对行为策略样本加权，使其等价于目标策略下的样本期望。

核心思想

•允许复用旧数据：无需每次都用目标策略与环境交互，可利用历史数据优化新策略。

•关键挑战：重要性权重可能导致方差爆炸，需结合截断、加权平均等技巧稳定训练。

•应用场景：离策略 Q-learning、Sarsa(λ)、策略梯度等算法。

五、方法对比总结