导航菜单

强化学习/强化学习面试题
课程进度 88% · 第13/14章13/14章 · 标签 1/3
1

理论知识面试题

问题1:什么是强化学习?它与监督学习和无监督学习有什么区别?

强化学习是一种通过与环境交互来学习最优策略的机器学习方法。智能体通过执行动作、观察环境反馈(奖励)来学习如何最大化长期累积奖励。

主要区别:

  • 监督学习:需要标记的训练数据,直接学习输入到输出的映射
  • 无监督学习:不需要标记数据,主要发现数据中的模式和结构
  • 强化学习:通过试错和反馈来学习,目标是最大化长期奖励
2

问题2:解释马尔可夫决策过程(MDP)的核心概念。

MDP是强化学习问题的数学框架,包含以下核心概念:

  • 状态空间(S):环境可能的所有状态集合
  • 动作空间(A):智能体可以执行的所有动作集合
  • 转移概率(P):执行动作后状态转移的概率分布
  • 奖励函数(R):状态转移后获得的即时奖励
  • 折扣因子(γ):用于平衡即时奖励和未来奖励的重要性

这些概念共同构成了一个完整的决策过程,智能体的目标是在这个框架下找到最优策略。