课程进度 88% · 第13/14章第13/14章 · 标签 1/3
— 1 —
理论知识面试题
问题1:什么是强化学习?它与监督学习和无监督学习有什么区别?
强化学习是一种通过与环境交互来学习最优策略的机器学习方法。智能体通过执行动作、观察环境反馈(奖励)来学习如何最大化长期累积奖励。
主要区别:
- 监督学习:需要标记的训练数据,直接学习输入到输出的映射
- 无监督学习:不需要标记数据,主要发现数据中的模式和结构
- 强化学习:通过试错和反馈来学习,目标是最大化长期奖励
— 2 —
问题2:解释马尔可夫决策过程(MDP)的核心概念。
MDP是强化学习问题的数学框架,包含以下核心概念:
- 状态空间(S):环境可能的所有状态集合
- 动作空间(A):智能体可以执行的所有动作集合
- 转移概率(P):执行动作后状态转移的概率分布
- 奖励函数(R):状态转移后获得的即时奖励
- 折扣因子(γ):用于平衡即时奖励和未来奖励的重要性
这些概念共同构成了一个完整的决策过程,智能体的目标是在这个框架下找到最优策略。