很抱歉，您提供的信息PbRL不是一个常见的缩写或术语，因此我无法直接给出具体的解释或回答。如果您能提供更多的上下文或者详细说明，我会尽力帮助您解答。例如，PbRL可能是某个特定领域或技术中的一个术语，或者是某个产品或服务的名称。请提供更多信息，以便我能够更

目录Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic TechniquesDecoding Global Preferences: Temporal and Cooperative Dependency Modeling in Multi-Agent Preference-Based Reinforcement LearningO-MAPL: Offline Multi-agent Preference LearningM³HF: Multi-agent Reinforcement Learning from Multi-phase Human Feedback of Mixed QualityDPM: Dual Preferences-based Multi-Agent Reinforcement LearningHuman Implicit Preference-Based Policy Fine-tuning for Multi-Agent Reinforcement Learning in USV SwarmOffline Multi-Agent Preference-based Reinforcement Learning with Agent-aware Direct Preference Optimization Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques 信息：投稿 ICLR 2025。 arxiv：https://arxiv.org/abs/2409.00717 pdf：https://arxiv.org/pdf/2409.00717 html：https://arxiv.org/html/2409.00717 OpenReview：https://openreview.net/forum?id=4vPC6Aj6N7 这篇文章声称自己是第一个做 Pb-MARL 的。好像还有理论。速读总结：这篇文章似乎关注 offline Pb-MARL。故事好像是，传统的 offline RL 中，只要数据集覆盖了最优策略，就能通过悲观 offline RL 算法恢复出最优策略。然而，在 MARL 里，数据集需要覆盖“所有玩家单方面偏离纳什均衡的情况”才能做到最优。有相关理论证明。具体 setting：只能拿到一个 offline 数据集 \(D = \{(\tau_0, \tau_1, p_i)\}\)，其中 τ 是轨迹片段，\(p_i\) 是第 i 个 agent 的 preference，可以用来学 agent 的局部 reward model。做的是 CTDE，各个 agent 可以一起训练，但部署的时候，只能看见全局 state 然后输出自己的 action \(a_i\)，不能同时看见其他 agent 的 action。希望学一个“近似纳什均衡”的策略，Nash-Gap(π) ≤ ε 的 ε-纳什均衡 —— 没有任何玩家能通过单方面改策略来显著提升自己的总回报。 method：先学出每个 agent 的 reward model，然后给轨迹标注 reward，使用悲观 offline MARL 算法学策略。在学 reward model 这一步，加了一个 MSE 正则项，强制相邻时间步的奖励预测变化平滑，防止 reward 信号全挤在轨迹末尾。然后，使用 behavior cloning 学习行为策略，这个行为策略是用来约束 policy 不要离行为策略太远的。最后的 MARL 算法是基于 VDN 的。 Decoding Global Preferences: Temporal and Cooperative Dependency Modeling in Multi-Agent Preference-Based Reinforcement Learning 信息：AAAI 2024。 pdf：https://ojs.aaai.org/index.php/AAAI/article/view/29666 从这个链接里面下载，或者直接点击下载。 GitHub：https://github.com/catezi/MAPT 好像提出了 multi-agent preference transformer。速读总结：好像提出了 multi-agent preference transformer。

相关推荐