课程进度 45% · 第7/14章第7/14章 · 标签 1/3
— 1 —
策略梯度概述
基本概念
策略梯度是一种直接优化策略的方法,通过梯度上升来最大化期望回报。它适用于连续动作空间和离散动作空间。
核心思想:通过梯度上升来优化策略,以最大化期望回报。
算法原理
- 策略梯度公式:∇J(θ) = E[∇log(π(a|s)) * R]
- 参数说明:θ(策略参数),R(回报)
- 探索策略:使用随机策略进行探索
- 收敛性:在满足条件下保证收敛到最优策略
— 2 —
应用场景
- 游戏AI:如Atari游戏、棋类游戏等
- 机器人控制:路径规划、动作控制
- 资源调度:任务分配、负载均衡
- 推荐系统:个性化推荐、广告投放