2025年4月修改的论文速读记录是关于什么主题的?

摘要:目录Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement LearningOpen-World Reinforcement
目录Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement LearningOpen-World Reinforcement Learning over Long Short-Term ImaginationOn the Role of Discount Factor in Offline Reinforcement LearningModel-Agnostic Meta-Learning for Fast Adaptation of Deep NetworksFew-Shot Preference Learning for Human-in-the-Loop RLEfficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning arxiv:https://arxiv.org/abs/2305.15260 GitHub:https://github.com/qiwang067/CoWorld open review:https://openreview.net/pdf?id=ucxQrked0d 网站:https://qiwang067.github.io/coworld YouTube 视频:https://www.youtube.com/watch?v=ZDoS0df39W0 来源:下面那篇 LS-Imagine 作者的另一篇文章,发表于 NeurIPS 2024。 主要内容: 这篇文章关注视觉强化学习(vision RL)中的迁移学习,即,如何从 source task 上进行训练,并迁移到 target task 上进行评测。 这篇文章的 setting 是 ① 能使用 target task 的 offline 数据集 + ② 可以 online 访问 source task → ③ 最后在 target task 上 evaluation。这篇文章使用的方法是 model-based RL。 对于文章的 setting,deepseek 举了一个例子: 想象你要通过观看旧菜谱视频(target task 的 offline 数据)学习烹饪,但无法亲自下厨练习。直接模仿视频可能遇到两个问题: 过拟合:生搬硬套视频中的步骤,遇到新食材就手忙脚乱 盲目自信:误以为某种危险操作(如猛火炒菜)会有好效果 CoWorld 的解决方案是:用一个厨房模拟游戏(在线模拟器)作为试验场(即 source task)。虽然游戏里的灶台 / 厨具和现实不同,但你可以: 先在游戏中练习相似操作 → 获得更全面的经验 把游戏中学到的技巧谨慎地应用到真实菜谱中 → 避免危险操作 这篇文章为 source 和 target 任务分别维护两个 world model 和两个 agent,主要使用以下三种技术: ① Offline-to-Online State Alignment:目的是让两个 world model 的 state encoder 对于 offline target dataset 中的 obs,编码的 representation 结果更接近,通过最小化两个编码器输出的 KL 散度。原文中还有一些复杂公式,似乎是 model-based RL 中的常见做法,我看不太懂。 为什么需要 state encoder?因为输入是 pixel-based 的视觉信息,需要先转换成 representation。 World model 的作用是什么?我理解为,它可以作为一个假环境来训练 agent,提供 observation、transition 和 reward。world model 不是马尔可夫的,会通过循环网络等方法维护一个包含历史信息的 hidden 变量 h。貌似,world model 有可能是可微的,能提供梯度以用于梯度上升 discounted return。
阅读全文