提出年份:2013(深度Q网络,DQN)
主要思想:结合深度学习与强化学习,通过神经网络来逼近值函数和策略函数,从而使智能体在复杂环境中进行决策
适用领域:游戏(如AlphaGo)、机器人控制、自动驾驶
原理:
Q学习:通过估计Q值(即在某个状态下执行某个动作的期望回报)来指导决策。
深度Q网络(DQN):使用深度神经网络替代传统Q学习中的查表方法,实现复杂环境中的值函数逼近。
策略梯度方法:通过优化策略函数(如REINFORCE、PPO)直接学习动作策略。
发展:
DQN:将Q学习和深度学习结合,实现了端到端的强化学习。
A3C(异步优势演员-评论家):引入异步更新机制,提升了学习效率和稳定性。
PPO(Proximal Policy Optimization):简化了策略优化过程,增强了算法稳定性和表现。
AlphaGo:通过深度强化学习取得了围棋比赛的突破,标志着DRL在复杂决策任务中的应用。
强化学习的扩展:近年来,强化学习在自动驾驶、智能推荐、机器人操作等领域得到了广泛应用。