文章主要介绍RL中策略优化算法。在环境状态下,策略产生行为,行为产生轨迹,轨迹在环境中获得奖励。获得最佳奖励的过程,就是产生最佳动作序列的过程,也就是设计最佳策略参数使得最佳动作序列输出的概率最大的过程。这个过程中有一些工程技巧,比如策略梯度对数求导、在策略梯度中增加优势方程降低梯度方差、采用reward-to-go的奖励形式。#policygradient算法 #深度学习笔记 #策略优化笔记
微信扫一扫赞赏作者喜欢作者