2025年5月修改的论文速读记录,有哪些疑问点?
摘要:目录Mixing corrupted preferences for robust and feedback-efficient preference-based reinforcement learningXSkill: Cross Em
目录Mixing corrupted preferences for robust and feedback-efficient preference-based reinforcement learningXSkill: Cross Embodiment Skill Discovery① discover:② transfer:③ compose:Task Transfer by Preference-Based Cost Learning01 MaxEnt IRL02 Adversarial MaxEnt IRL03 神秘 preference cost 方法04 基于 (s,a) pair 的 Adversarial MaxEnt IRLTransfer Learning in Deep Reinforcement Learning: A Survey
Mixing corrupted preferences for robust and feedback-efficient preference-based reinforcement learning
url:https://www.sciencedirect.com/science/article/pii/S0950705124014588
open review:https://openreview.net/forum?id=kCcIYc98ho
来源:偶然得知的文章。
主要内容:
这篇文章最初投稿在 ICLR 2024,6 6 5 reject,后来于 2025 年 1 月发表在 Knowledge-Based Systems 期刊,不太了解这个期刊。
主要 method:提出了 MCP(Mixing corrupted preferences)方法,用于应对 PbRL 里的 noisy preference label,其中 noisy label 从 B-Pref 的模型里生成。
MCP 貌似是 mixup 方法在 PbRL 里的直接应用,具体是把两个 query \((\sigma_0, \sigma_1, p), (\sigma_0', \sigma_1', p')\) 进行线性组合,得到两个新的假 query:\([\lambda\sigma_0 + (1-\lambda)\sigma_0', ~ \lambda\sigma_1 +(1-\lambda)\sigma_1', ~ \lambda p + (1-\lambda)p']\) 和另一个对称生成的 query,其中 \(\lambda\sim\text{Beta}(\beta,\beta)\),我也不懂 beta 分布,貌似 λ 会是 0 1 之间的值,且比较贴近 0 或 1。
这篇文章希望通过这样的方式,让 reward model 在每个 preference 数据点的邻域周围,都有一定泛化性。
XSkill: Cross Embodiment Skill Discovery
arxiv:https://arxiv.org/abs/2307.09955
website:https://xskill.cs.columbia.edu/
open review:https://openreview.net/forum?id=8L6pHd9aS6w
GitHub:https://github.com/real-stanford/xskill
来源:希望用 offline 数据学习 task 中的 stage。
主要内容:
这是一篇 CoRL 2023 的论文,关注 robotics 方向。
这篇论文提出了 XSkill(cross embodiment skill discovery)方法,包含非常吸引人的框架:
可以通过对齐 human 和 robot 的动作,从 human 的轨迹中学到可重用的技能(skill),比如开门 开灯 拉抽屉;
然后,让 robot 学会这些技能;
最后,对于一个新 task,我们只需要给一条 human 轨迹,就可以通过先识别其中的 skill,再让 robot 进行规划、执行 skill,这样 one-shot 学会新 task。
主要 setting:可用的数据集有 ① human expert demo 的轨迹数据集,② robot 遥操作轨迹数据集。这两个数据集都是未分割和未对齐的。
XSkill 分为三个阶段:discover、transfer 和 compose。
