导航菜单

强化学习/强化学习基础
课程进度 2% · 第1/14章1/14章 · 标签 1/4
1

强化学习(Reinforcement Learning)概述

基本概念

强化学习是机器学习的一个重要分支,它通过让智能体(Agent)在与环境(Environment)的交互中学习最优策略。智能体通过尝试不同的动作(Action),观察环境的状态(State)和获得的奖励(Reward),逐步学习如何最大化长期累积奖励。

核心思想:通过「试错」(Trial and Error)的方式学习,从经验中不断改进策略。

智能体环境动作状态和奖励
2

核心要素

  • 智能体(Agent):学习的主体,负责做出决策和执行动作
  • 环境(Environment):智能体所处的世界,提供状态和奖励信息
  • 状态(State):环境在某一时刻的完整描述
  • 动作(Action):智能体可以执行的操作
  • 奖励(Reward):环境对智能体动作的反馈信号
  • 策略(Policy):智能体的决策规则,决定在给定状态下选择什么动作
状态动作奖励策略

主要特点

  • 延迟奖励:动作的后果可能在未来才能体现
  • 探索与利用:需要在尝试新动作和利用已知好动作之间平衡
  • 序列决策:当前决策会影响未来的状态和奖励
  • 在线学习:通过与环境交互实时学习