DDPG算法,利用离散策略收集经验数据,重复播放经验池数据学习Q(s,a)函数,用习得的价值函数学习最佳策略网络u(s)。#强化学习笔记 #DDPG算法详解 #Q函数与策略学习 #离散策略的经验池 #Bellman方程应用
微信扫一扫赞赏作者喜欢作者