最近读的 MARL 文章，有哪些策略在多智能体强化学习中的应用？

摘要：鸣谢专家提供论文列表。目录01 MARL 算法[MADDPG] Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments[VDN] Value-Deco

鸣谢专家提供论文列表。目录01 MARL 算法[MADDPG] Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments[VDN] Value-Decomposition Networks For Cooperative Multi-Agent Learning[QMIX] Monotonic value function factorisation for deep multi-agent reinforcement learning[COMA] Counterfactual Multi-Agent Policy GradientsFACMAC: Factored Multi-Agent Centralised Policy Gradients[MAPPO] The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games02 MARL 环境SMACSMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement LearningJaxMARL: Multi-Agent RL Environments and Algorithms in JAX 01 MARL 算法 [MADDPG] Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 来源：NeurIPS 2017。 arxiv：https://arxiv.org/abs/1706.02275 pdf：https://arxiv.org/pdf/1706.02275 html：https://ar5iv.labs.arxiv.org/html/1706.02275 GitHub：https://github.com/openai/maddpg 主要内容： Dec-POMDP：把介绍照抄一遍。 CTDE（centralized training with decentralized execution）：训练多个 agent 时，可以联合训练，但 evaluate 时，每个 agent 只能看到自己的局部信息。比如，我们可以使用 actor-critic 结构，训练时，训练一个各个 agent 的联合的 critic \(Q(s_1, \cdots, s_N, a_1, \cdots, a_N)\)，并且为每个 action 训练一个 actor \(\pi_i(a_i|s_i)\)；在 evaluate 的时候，只使用每个 agent 的 actor。 MADDPG 的两个关键公式，很简单。没看懂 4.2 节在说什么。实验做了 MPE 环境。参考意义： [VDN] Value-Decomposition Networks For Cooperative Multi-Agent Learning 来源：最先挂在 arxiv 上，后来发在 AAMAS 2018。 arxiv：https://arxiv.org/abs/1706.05296 pdf：https://arxiv.org/pdf/1706.05296 html：https://ar5iv.labs.arxiv.org/html/1706.05296 主要内容：参考意义： [QMIX] Monotonic value function factorisation for deep multi-agent reinforcement learning 来源：ICML 2018。 arxiv：https://arxiv.org/abs/2003.08839 pdf：https://arxiv.org/pdf/2003.08839 html：https://ar5iv.labs.arxiv.org/html/2003.08839 知乎博客：https://zhuanlan.zhihu.com/p/362683452 主要内容：参考意义： [COMA] Counterfactual Multi-Agent Policy Gradients 来源：AAAI 2018。 arxiv：https://arxiv.org/abs/1705.08926 pdf：https://arxiv.org/pdf/1705.08926 html：https://arxiv.org/html/1705.08926v3 主要内容：参考意义： FACMAC: Factored Multi-Agent Centralised Policy Gradients 来源：NeurIPS 2021。 arxiv：https://arxiv.org/abs/2003.06709 pdf：https://arxiv.org/pdf/2003.06709 html：https://ar5iv.labs.arxiv.org/html/2003.06709 open review：https://openreview.net/forum?id=WxH774N0mEu 主要内容：参考意义： [MAPPO] The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games 来源：NeurIPS 2022，Datasets and Benchmarks Track。 arxiv：https://arxiv.org/abs/2103.01955 pdf：https://arxiv.org/pdf/2103.01955 html：https://ar5iv.labs.arxiv.org/html/2103.01955 open review：https://openreview.net/forum?id=YVXaxB6L2Pl website：https://sites.google.com/view/mappo GitHub：https://github.com/marlbenchmark/on-policy 参考博客：回顾 PPO：MARLlib | PPO family。关于 MAPPO 的 csdn 博客：MARL: MAPPO & MADDPG & MASAC 算法及伪代码主要内容：参考意义： 02 MARL 环境 MPE、mujoco 其他环境 SMAC 安装 SMAC 的脚本：https://github.com/oxwhirl/pymarl/blob/master/install_sc2.sh SMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement Learning 来源：NeurIPS 2023。 arxiv：https://arxiv.org/abs/2212.07489 pdf：https://arxiv.org/pdf/2212.07489 html：https://ar5iv.labs.arxiv.org/html/2212.07489 open review：https://openreview.net/forum?id=5OjLGiJW3u 主要内容：SMAC2 的环境（？）【】声称相比 SMAC 做了哪些改进，审稿人如何评价。参考意义：SMAC2 与 SMAC 的关系，现在哪个更常用；SMAC2 包含哪些具体 task 以及它们的 setting，QMIX MAPPO 等算法的表现如何。 JaxMARL: Multi-Agent RL Environments and Algorithms in JAX 来源：NeurIPS 2024。 arxiv：https://arxiv.org/abs/2311.10090 pdf：https://arxiv.org/pdf/2311.10090 html：https://arxiv.org/html/2311.10090v5 open review：https://openreview.net/forum?id=X90tyXDe8z 主要内容：提供了 SMAC 等环境的 JAX 实现，并且用 JAX 实现了一些经典 MARL 算法，看论文感觉运行非常快。参考意义：QMIX、MAPPO 在各个任务上的表现如何。

最近读的 MARL 文章，有哪些策略在多智能体强化学习中的应用？

相关推荐