导航菜单

强化学习/多智能体强化学习
课程进度 67% · 第10/14章10/14章 · 标签 1/3
1

多智能体强化学习概述

基本概念

多智能体强化学习(MARL)研究多个智能体在共享环境中如何通过交互学习最优策略。每个智能体都需要考虑其他智能体的行为,这使得问题变得更加复杂和有趣。

核心特点:智能体之间的交互、合作与竞争、环境动态性、部分可观察性。

主要算法

  • MADDPG (Multi-Agent DDPG):集中式训练、分布式执行的Actor-Critic算法
  • COMA (Counterfactual Multi-Agent):基于反事实推理的多智能体算法
  • QMIX:基于单调性约束的混合Q值算法
  • MAPPO (Multi-Agent PPO):多智能体版本的近端策略优化算法
2

关键技术

  • 通信机制:智能体间的信息交换与协调
  • 信用分配:评估每个智能体的贡献度
  • 非平稳性处理:处理环境动态变化
  • 部分可观察性:处理不完全信息

应用场景

  • 多机器人协作:多机器人协同完成任务
  • 交通控制:智能交通信号灯控制
  • 游戏AI:多智能体游戏策略
  • 资源分配:分布式资源优化