2025年5月修改的论文速读记录，有哪些疑问点？

目录Mixing corrupted preferences for robust and feedback-efficient preference-based reinforcement learningXSkill: Cross Embodiment Skill Discovery① discover：② transfer：③ compose：Task Transfer by Preference-Based Cost Learning01 MaxEnt IRL02 Adversarial MaxEnt IRL03 神秘 preference cost 方法04 基于 (s,a) pair 的 Adversarial MaxEnt IRLTransfer Learning in Deep Reinforcement Learning: A Survey Mixing corrupted preferences for robust and feedback-efficient preference-based reinforcement learning url：https://www.sciencedirect.com/science/article/pii/S0950705124014588 open review：https://openreview.net/forum?id=kCcIYc98ho 来源：偶然得知的文章。主要内容：这篇文章最初投稿在 ICLR 2024，6 6 5 reject，后来于 2025 年 1 月发表在 Knowledge-Based Systems 期刊，不太了解这个期刊。主要 method：提出了 MCP（Mixing corrupted preferences）方法，用于应对 PbRL 里的 noisy preference label，其中 noisy label 从 B-Pref 的模型里生成。 MCP 貌似是 mixup 方法在 PbRL 里的直接应用，具体是把两个 query \((\sigma_0, \sigma_1, p), (\sigma_0', \sigma_1', p')\) 进行线性组合，得到两个新的假 query：\([\lambda\sigma_0 + (1-\lambda)\sigma_0', ~ \lambda\sigma_1 +(1-\lambda)\sigma_1', ~ \lambda p + (1-\lambda)p']\) 和另一个对称生成的 query，其中 \(\lambda\sim\text{Beta}(\beta,\beta)\)，我也不懂 beta 分布，貌似 λ 会是 0 1 之间的值，且比较贴近 0 或 1。这篇文章希望通过这样的方式，让 reward model 在每个 preference 数据点的邻域周围，都有一定泛化性。 XSkill: Cross Embodiment Skill Discovery arxiv：https://arxiv.org/abs/2307.09955 website：https://xskill.cs.columbia.edu/ open review：https://openreview.net/forum?id=8L6pHd9aS6w GitHub：https://github.com/real-stanford/xskill 来源：希望用 offline 数据学习 task 中的 stage。主要内容：这是一篇 CoRL 2023 的论文，关注 robotics 方向。这篇论文提出了 XSkill（cross embodiment skill discovery）方法，包含非常吸引人的框架：可以通过对齐 human 和 robot 的动作，从 human 的轨迹中学到可重用的技能（skill），比如开门开灯拉抽屉；然后，让 robot 学会这些技能；最后，对于一个新 task，我们只需要给一条 human 轨迹，就可以通过先识别其中的 skill，再让 robot 进行规划、执行 skill，这样 one-shot 学会新 task。主要 setting：可用的数据集有 ① human expert demo 的轨迹数据集，② robot 遥操作轨迹数据集。这两个数据集都是未分割和未对齐的。 XSkill 分为三个阶段：discover、transfer 和 compose。

2025年5月修改的论文速读记录，有哪些疑问点？

相关推荐