课程进度 31% · 第5/14章第5/14章 · 标签 1/3
— 1 —
时序差分学习概述
基本概念
时序差分(TD)学习是一类结合了动态规划和蒙特卡洛思想的强化学习方法。它通过当前状态和下一个状态的估计来更新价值函数,无需完整回合即可学习。
核心思想:通过「当前估计」与「下一个估计」之间的差值(TD误差)来修正价值。
主要类型与算法流程
- TD(0)预测:利用一步时序差分更新状态价值函数
- SARSA:基于当前策略的在线控制方法
- Q-Learning:基于最优动作的离线控制方法
— 2 —
应用场景
- 博弈游戏:如围棋、国际象棋等回合制游戏
- 机器人控制:路径规划、动作序列学习
- 推荐系统:用户行为序列分析
- 金融市场:投资组合优化、风险评估