最近读的 MARL 文章,有哪些策略在多智能体强化学习中的应用?

摘要:鸣谢专家提供论文列表。 目录01 MARL 算法[MADDPG] Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments[VDN] Value-Deco
鸣谢专家提供论文列表。 目录01 MARL 算法[MADDPG] Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments[VDN] Value-Decomposition Networks For Cooperative Multi-Agent Learning[QMIX] Monotonic value function factorisation for deep multi-agent reinforcement learning[COMA] Counterfactual Multi-Agent Policy GradientsFACMAC: Factored Multi-Agent Centralised Policy Gradients[MAPPO] The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games02 MARL 环境SMACSMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement LearningJaxMARL: Multi-Agent RL Environments and Algorithms in JAX 01 MARL 算法 [MADDPG] Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 来源:NeurIPS 2017。 arxiv:https://arxiv.org/abs/1706.02275 pdf:https://arxiv.org/pdf/1706.02275 html:https://ar5iv.labs.arxiv.org/html/1706.02275 GitHub:https://github.com/openai/maddpg 主要内容: Dec-POMDP:把介绍照抄一遍。 CTDE(centralized training with decentralized execution):训练多个 agent 时,可以联合训练,但 evaluate 时,每个 agent 只能看到自己的局部信息。比如,我们可以使用 actor-critic 结构,训练时,训练一个各个 agent 的联合的 critic \(Q(s_1, \cdots, s_N, a_1, \cdots, a_N)\),并且为每个 action 训练一个 actor \(\pi_i(a_i|s_i)\);在 evaluate 的时候,只使用每个 agent 的 actor。 MADDPG 的两个关键公式,很简单。没看懂 4.2 节在说什么。实验做了 MPE 环境。 参考意义: [VDN] Value-Decomposition Networks For Cooperative Multi-Agent Learning 来源:最先挂在 arxiv 上,后来发在 AAMAS 2018。 arxiv:https://arxiv.org/abs/1706.05296 pdf:https://arxiv.org/pdf/1706.05296 html:https://ar5iv.labs.arxiv.org/html/1706.05296 主要内容: 参考意义: [QMIX] Monotonic value function factorisation for deep multi-agent reinforcement learning 来源:ICML 2018。 arxiv:https://arxiv.org/abs/2003.08839 pdf:https://arxiv.org/pdf/2003.08839 html:https://ar5iv.labs.arxiv.org/html/2003.08839 知乎博客:https://zhuanlan.zhihu.com/p/362683452 主要内容: 参考意义: [COMA] Counterfactual Multi-Agent Policy Gradients 来源:AAAI 2018。
阅读全文