课程进度 2% · 第1/14章第1/14章 · 标签 1/4
— 1 —
强化学习(Reinforcement Learning)概述
基本概念
强化学习是机器学习的一个重要分支,它通过让智能体(Agent)在与环境(Environment)的交互中学习最优策略。智能体通过尝试不同的动作(Action),观察环境的状态(State)和获得的奖励(Reward),逐步学习如何最大化长期累积奖励。
核心思想:通过「试错」(Trial and Error)的方式学习,从经验中不断改进策略。
— 2 —
核心要素
- 智能体(Agent):学习的主体,负责做出决策和执行动作
- 环境(Environment):智能体所处的世界,提供状态和奖励信息
- 状态(State):环境在某一时刻的完整描述
- 动作(Action):智能体可以执行的操作
- 奖励(Reward):环境对智能体动作的反馈信号
- 策略(Policy):智能体的决策规则,决定在给定状态下选择什么动作
主要特点
- 延迟奖励:动作的后果可能在未来才能体现
- 探索与利用:需要在尝试新动作和利用已知好动作之间平衡
- 序列决策:当前决策会影响未来的状态和奖励
- 在线学习:通过与环境交互实时学习