PartJava - 编程学习与开发工具导航平台

导航菜单

分类导航

强化学习/强化学习基础1 / 14

课程进度 2% · 第1/14章第1/14章 · 标签 1/4

— 1 —

强化学习（Reinforcement Learning）概述

基本概念

强化学习是机器学习的一个重要分支，它通过让智能体（Agent）在与环境（Environment）的交互中学习最优策略。智能体通过尝试不同的动作（Action），观察环境的状态（State）和获得的奖励（Reward），逐步学习如何最大化长期累积奖励。

核心思想：通过「试错」（Trial and Error）的方式学习，从经验中不断改进策略。

— 2 —

核心要素

智能体（Agent）：学习的主体，负责做出决策和执行动作
环境（Environment）：智能体所处的世界，提供状态和奖励信息
状态（State）：环境在某一时刻的完整描述
动作（Action）：智能体可以执行的操作
奖励（Reward）：环境对智能体动作的反馈信号
策略（Policy）：智能体的决策规则，决定在给定状态下选择什么动作

主要特点

延迟奖励：动作的后果可能在未来才能体现
探索与利用：需要在尝试新动作和利用已知好动作之间平衡
序列决策：当前决策会影响未来的状态和奖励
在线学习：通过与环境交互实时学习

马尔可夫决策过程 →