最近读的 MARL 文章,有哪些策略在多智能体强化学习中的应用?
摘要:鸣谢专家提供论文列表。 目录01 MARL 算法[MADDPG] Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments[VDN] Value-Deco
鸣谢专家提供论文列表。
目录01 MARL 算法[MADDPG] Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments[VDN] Value-Decomposition Networks For Cooperative Multi-Agent Learning[QMIX] Monotonic value function factorisation for deep multi-agent reinforcement learning[COMA] Counterfactual Multi-Agent Policy GradientsFACMAC: Factored Multi-Agent Centralised Policy Gradients[MAPPO] The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games02 MARL 环境SMACSMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement LearningJaxMARL: Multi-Agent RL Environments and Algorithms in JAX
01 MARL 算法
[MADDPG] Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments
来源:NeurIPS 2017。
arxiv:https://arxiv.org/abs/1706.02275
pdf:https://arxiv.org/pdf/1706.02275
html:https://ar5iv.labs.arxiv.org/html/1706.02275
GitHub:https://github.com/openai/maddpg
主要内容:
Dec-POMDP:把介绍照抄一遍。
CTDE(centralized training with decentralized execution):训练多个 agent 时,可以联合训练,但 evaluate 时,每个 agent 只能看到自己的局部信息。比如,我们可以使用 actor-critic 结构,训练时,训练一个各个 agent 的联合的 critic \(Q(s_1, \cdots, s_N, a_1, \cdots, a_N)\),并且为每个 action 训练一个 actor \(\pi_i(a_i|s_i)\);在 evaluate 的时候,只使用每个 agent 的 actor。
MADDPG 的两个关键公式,很简单。没看懂 4.2 节在说什么。实验做了 MPE 环境。
参考意义:
[VDN] Value-Decomposition Networks For Cooperative Multi-Agent Learning
来源:最先挂在 arxiv 上,后来发在 AAMAS 2018。
arxiv:https://arxiv.org/abs/1706.05296
pdf:https://arxiv.org/pdf/1706.05296
html:https://ar5iv.labs.arxiv.org/html/1706.05296
主要内容:
参考意义:
[QMIX] Monotonic value function factorisation for deep multi-agent reinforcement learning
来源:ICML 2018。
arxiv:https://arxiv.org/abs/2003.08839
pdf:https://arxiv.org/pdf/2003.08839
html:https://ar5iv.labs.arxiv.org/html/2003.08839
知乎博客:https://zhuanlan.zhihu.com/p/362683452
主要内容:
参考意义:
[COMA] Counterfactual Multi-Agent Policy Gradients
来源:AAAI 2018。
arxiv:https://arxiv.org/abs/1705.08926
pdf:https://arxiv.org/pdf/1705.08926
html:https://arxiv.org/html/1705.08926v3
主要内容:
参考意义:
FACMAC: Factored Multi-Agent Centralised Policy Gradients
来源:NeurIPS 2021。
arxiv:https://arxiv.org/abs/2003.06709
pdf:https://arxiv.org/pdf/2003.06709
html:https://ar5iv.labs.arxiv.org/html/2003.06709
open review:https://openreview.net/forum?id=WxH774N0mEu
主要内容:
参考意义:
[MAPPO] The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games
来源:NeurIPS 2022,Datasets and Benchmarks Track。
arxiv:https://arxiv.org/abs/2103.01955
pdf:https://arxiv.org/pdf/2103.01955
html:https://ar5iv.labs.arxiv.org/html/2103.01955
open review:https://openreview.net/forum?id=YVXaxB6L2Pl
website:https://sites.google.com/view/mappo
GitHub:https://github.com/marlbenchmark/on-policy
参考博客:
回顾 PPO:MARLlib | PPO family。
关于 MAPPO 的 csdn 博客:MARL: MAPPO & MADDPG & MASAC 算法及伪代码
主要内容:
参考意义:
02 MARL 环境
MPE、mujoco
其他环境
SMAC
安装 SMAC 的脚本:https://github.com/oxwhirl/pymarl/blob/master/install_sc2.sh
SMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement Learning
来源:NeurIPS 2023。
arxiv:https://arxiv.org/abs/2212.07489
pdf:https://arxiv.org/pdf/2212.07489
html:https://ar5iv.labs.arxiv.org/html/2212.07489
open review:https://openreview.net/forum?id=5OjLGiJW3u
主要内容:SMAC2 的环境(?)【】声称相比 SMAC 做了哪些改进,审稿人如何评价。
参考意义:SMAC2 与 SMAC 的关系,现在哪个更常用;SMAC2 包含哪些具体 task 以及它们的 setting,QMIX MAPPO 等算法的表现如何。
JaxMARL: Multi-Agent RL Environments and Algorithms in JAX
来源:NeurIPS 2024。
arxiv:https://arxiv.org/abs/2311.10090
pdf:https://arxiv.org/pdf/2311.10090
html:https://arxiv.org/html/2311.10090v5
open review:https://openreview.net/forum?id=X90tyXDe8z
主要内容:提供了 SMAC 等环境的 JAX 实现,并且用 JAX 实现了一些经典 MARL 算法,看论文感觉运行非常快。
参考意义:QMIX、MAPPO 在各个任务上的表现如何。
