导航菜单

强化学习/深度强化学习
课程进度 60% · 第9/14章9/14章 · 标签 1/3
1

深度强化学习概述

基本概念

深度强化学习是深度学习和强化学习的结合,它使用深度神经网络来近似值函数或策略函数,从而解决高维状态空间和动作空间的强化学习问题。

核心思想:利用深度神经网络的强大表达能力来近似复杂的值函数或策略函数。

主要算法

  • DQN (Deep Q-Network):使用深度神经网络近似Q值函数
  • DDPG (Deep Deterministic Policy Gradient):用于连续动作空间的深度确定性策略梯度
  • A3C (Asynchronous Advantage Actor-Critic):异步优势演员-评论家算法
  • PPO (Proximal Policy Optimization):近端策略优化算法
2

关键技术

  • 经验回放:存储和重用过去的经验,打破样本相关性
  • 目标网络:使用独立的目标网络提高训练稳定性
  • 双网络架构:分离策略网络和价值网络
  • 优先经验回放:根据TD误差大小对经验进行采样

应用场景

  • 游戏AI:如AlphaGo、Atari游戏等
  • 机器人控制:复杂动作控制、运动规划
  • 自动驾驶:决策规划、路径优化
  • 资源调度:数据中心资源分配、任务调度