很抱歉,您提供的信息PbRL不是一个常见的缩写或术语,因此我无法直接给出具体的解释或回答。如果您能提供更多的上下文或者详细说明,我会尽力帮助您解答。例如,PbRL可能是某个特定领域或技术中的一个术语,或者是某个产品或服务的名称。请提供更多信息,以便我能够更
摘要:目录Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic TechniquesDecoding Global Preferenc
目录Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic TechniquesDecoding Global Preferences: Temporal and Cooperative Dependency Modeling in Multi-Agent Preference-Based Reinforcement LearningO-MAPL: Offline Multi-agent Preference LearningM³HF: Multi-agent Reinforcement Learning from Multi-phase Human Feedback of Mixed QualityDPM: Dual Preferences-based Multi-Agent Reinforcement LearningHuman Implicit Preference-Based Policy Fine-tuning for Multi-Agent Reinforcement Learning in USV SwarmOffline Multi-Agent Preference-based Reinforcement Learning with Agent-aware Direct Preference Optimization
Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques
信息:投稿 ICLR 2025。
arxiv:https://arxiv.org/abs/2409.00717
pdf:https://arxiv.org/pdf/2409.00717
html:https://arxiv.org/html/2409.00717
OpenReview:https://openreview.net/forum?id=4vPC6Aj6N7
这篇文章声称自己是第一个做 Pb-MARL 的。好像还有理论。
速读总结:
这篇文章似乎关注 offline Pb-MARL。故事好像是,传统的 offline RL 中,只要数据集覆盖了最优策略,就能通过悲观 offline RL 算法恢复出最优策略。然而,在 MARL 里,数据集需要覆盖“所有玩家单方面偏离纳什均衡的情况”才能做到最优。有相关理论证明。
具体 setting:
只能拿到一个 offline 数据集 \(D = \{(\tau_0, \tau_1, p_i)\}\),其中 τ 是轨迹片段,\(p_i\) 是第 i 个 agent 的 preference,可以用来学 agent 的局部 reward model。
做的是 CTDE,各个 agent 可以一起训练,但部署的时候,只能看见全局 state 然后输出自己的 action \(a_i\),不能同时看见其他 agent 的 action。
希望学一个“近似纳什均衡”的策略,Nash-Gap(π) ≤ ε 的 ε-纳什均衡 —— 没有任何玩家能通过单方面改策略来显著提升自己的总回报。
method:先学出每个 agent 的 reward model,然后给轨迹标注 reward,使用悲观 offline MARL 算法学策略。在学 reward model 这一步,加了一个 MSE 正则项,强制相邻时间步的奖励预测变化平滑,防止 reward 信号全挤在轨迹末尾。然后,使用 behavior cloning 学习行为策略,这个行为策略是用来约束 policy 不要离行为策略太远的。最后的 MARL 算法是基于 VDN 的。
Decoding Global Preferences: Temporal and Cooperative Dependency Modeling in Multi-Agent Preference-Based Reinforcement Learning
信息:AAAI 2024。
pdf:https://ojs.aaai.org/index.php/AAAI/article/view/29666 从这个链接里面下载,或者 直接点击下载。
GitHub:https://github.com/catezi/MAPT
好像提出了 multi-agent preference transformer。
速读总结:
好像提出了 multi-agent preference transformer。
