导航菜单

强化学习/时序差分学习
课程进度 31% · 第5/14章5/14章 · 标签 1/3
1

时序差分学习概述

基本概念

时序差分(TD)学习是一类结合了动态规划和蒙特卡洛思想的强化学习方法。它通过当前状态和下一个状态的估计来更新价值函数,无需完整回合即可学习。

核心思想:通过「当前估计」与「下一个估计」之间的差值(TD误差)来修正价值。

状态s动作a奖励r下状态s'

主要类型与算法流程

  • TD(0)预测:利用一步时序差分更新状态价值函数
  • SARSA:基于当前策略的在线控制方法
  • Q-Learning:基于最优动作的离线控制方法
2
初始化V采样(s,a,r,s')TD更新下一个回合

应用场景

  • 博弈游戏:如围棋、国际象棋等回合制游戏
  • 机器人控制:路径规划、动作序列学习
  • 推荐系统:用户行为序列分析
  • 金融市场:投资组合优化、风险评估