前面几篇文章介绍了强化学习算法的基本概念、分类、策略优化算法,本文章介绍一种具体的策略优化算法VPG。介绍了完整的算法执行流程,包含搜集轨迹、计算奖励、计算优势、更新策论参数、更新价值方程参数。VPG属于在线策论(on policy )类型的算法,也就是必须利用当前策略采集的数据优化当前策略,无法复用历史数据。on policy 的优势是算法稳定性好,能保证收敛。#VPG算法详解 #策略优化算法 #强化学习笔记 #Vanilla Policy Gradient
喜欢作者