PartJava - 编程学习与开发工具导航平台

强化学习/马尔可夫决策过程2 / 14

课程进度 10% · 第2/14章第2/14章 · 标签 1/3

— 1 —

马尔可夫决策过程（MDP）概述

马尔可夫决策过程是强化学习的基础数学模型，它描述了一个智能体在具有马尔可夫性质的环境中如何进行决策。MDP由状态空间、动作空间、转移概率、奖励函数和折扣因子五个要素组成。

马尔可夫性质：下一个状态只依赖于当前状态和动作，与历史状态无关。

— 2 —

状态价值函数 V(s) — 表示从状态s开始，按照策略π执行动作所获得的期望累积奖励
V(s) = E[∑(γ^t * R_t) | s_0 = s]

动作价值函数 Q(s,a) — 表示在状态s下执行动作a，然后按照策略π执行动作所获得的期望累积奖励
Q(s,a) = E[∑(γ^t * R_t) | s_0 = s, a_0 = a]

最优策略π*是在所有可能策略中，能够获得最大期望累积奖励的策略。对于每个状态s，最优策略选择能够获得最大动作价值函数的动作。

π*(s) = argmax_a Q*(s,a)