PartJava - 编程学习与开发工具导航平台

导航菜单

分类导航

强化学习/动态规划3 / 14

课程进度 17% · 第3/14章第3/14章 · 标签 1/3

— 1 —

动态规划（Dynamic Programming）概述

基本概念

动态规划是解决强化学习问题的一种重要方法，它通过将复杂问题分解为子问题，并存储子问题的解来避免重复计算。在强化学习中，动态规划主要用于计算最优策略和最优价值函数。

核心思想：通过「分而治之」的方式，将复杂问题分解为更小的子问题，并利用子问题的解来构建原问题的解。

主要算法

策略评估（Policy Evaluation）：计算给定策略下的状态价值函数
策略改进（Policy Improvement）：基于当前价值函数改进策略
策略迭代（Policy Iteration）：交替进行策略评估和改进
价值迭代（Value Iteration）：直接迭代计算最优价值函数

— 2 —

算法流程

策略迭代

初始化策略π
策略评估：计算Vπ
策略改进：基于Vπ更新策略
重复步骤2-3直到策略稳定

价值迭代

初始化价值函数V
对每个状态s更新V(s)
重复步骤2直到收敛
从V导出最优策略

马尔可夫决策过程