导航菜单

强化学习/策略梯度
课程进度 45% · 第7/14章7/14章 · 标签 1/3
1

策略梯度概述

基本概念

策略梯度是一种直接优化策略的方法,通过梯度上升来最大化期望回报。它适用于连续动作空间和离散动作空间。

核心思想:通过梯度上升来优化策略,以最大化期望回报。

策略π动作a奖励r梯度更新

算法原理

  • 策略梯度公式:∇J(θ) = E[∇log(π(a|s)) * R]
  • 参数说明:θ(策略参数),R(回报)
  • 探索策略:使用随机策略进行探索
  • 收敛性:在满足条件下保证收敛到最优策略
2
选择动作执行动作观察奖励更新策略

应用场景

  • 游戏AI:如Atari游戏、棋类游戏等
  • 机器人控制:路径规划、动作控制
  • 资源调度:任务分配、负载均衡
  • 推荐系统:个性化推荐、广告投放