PartJava - 编程学习与开发工具导航平台

导航菜单

分类导航

强化学习/时序差分学习5 / 14

课程进度 31% · 第5/14章第5/14章 · 标签 1/3

— 1 —

时序差分学习概述

基本概念

时序差分（TD）学习是一类结合了动态规划和蒙特卡洛思想的强化学习方法。它通过当前状态和下一个状态的估计来更新价值函数，无需完整回合即可学习。

核心思想：通过「当前估计」与「下一个估计」之间的差值（TD误差）来修正价值。

主要类型与算法流程

TD(0)预测：利用一步时序差分更新状态价值函数
SARSA：基于当前策略的在线控制方法
Q-Learning：基于最优动作的离线控制方法

— 2 —

应用场景

博弈游戏：如围棋、国际象棋等回合制游戏
机器人控制：路径规划、动作序列学习
推荐系统：用户行为序列分析
金融市场：投资组合优化、风险评估

蒙特卡洛方法