2025年4月修改的论文速读记录是关于什么主题的?
摘要:目录Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement LearningOpen-World Reinforcement
目录Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement LearningOpen-World Reinforcement Learning over Long Short-Term ImaginationOn the Role of Discount Factor in Offline Reinforcement LearningModel-Agnostic Meta-Learning for Fast Adaptation of Deep NetworksFew-Shot Preference Learning for Human-in-the-Loop RLEfficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning
Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning
arxiv:https://arxiv.org/abs/2305.15260
GitHub:https://github.com/qiwang067/CoWorld
open review:https://openreview.net/pdf?id=ucxQrked0d
网站:https://qiwang067.github.io/coworld
YouTube 视频:https://www.youtube.com/watch?v=ZDoS0df39W0
来源:下面那篇 LS-Imagine 作者的另一篇文章,发表于 NeurIPS 2024。
主要内容:
这篇文章关注视觉强化学习(vision RL)中的迁移学习,即,如何从 source task 上进行训练,并迁移到 target task 上进行评测。
这篇文章的 setting 是 ① 能使用 target task 的 offline 数据集 + ② 可以 online 访问 source task → ③ 最后在 target task 上 evaluation。这篇文章使用的方法是 model-based RL。
对于文章的 setting,deepseek 举了一个例子:
想象你要通过观看旧菜谱视频(target task 的 offline 数据)学习烹饪,但无法亲自下厨练习。直接模仿视频可能遇到两个问题:
过拟合:生搬硬套视频中的步骤,遇到新食材就手忙脚乱
盲目自信:误以为某种危险操作(如猛火炒菜)会有好效果
CoWorld 的解决方案是:用一个厨房模拟游戏(在线模拟器)作为试验场(即 source task)。虽然游戏里的灶台 / 厨具和现实不同,但你可以:
先在游戏中练习相似操作 → 获得更全面的经验
把游戏中学到的技巧谨慎地应用到真实菜谱中 → 避免危险操作
这篇文章为 source 和 target 任务分别维护两个 world model 和两个 agent,主要使用以下三种技术:
① Offline-to-Online State Alignment:目的是让两个 world model 的 state encoder 对于 offline target dataset 中的 obs,编码的 representation 结果更接近,通过最小化两个编码器输出的 KL 散度。原文中还有一些复杂公式,似乎是 model-based RL 中的常见做法,我看不太懂。
为什么需要 state encoder?因为输入是 pixel-based 的视觉信息,需要先转换成 representation。
World model 的作用是什么?我理解为,它可以作为一个假环境来训练 agent,提供 observation、transition 和 reward。world model 不是马尔可夫的,会通过循环网络等方法维护一个包含历史信息的 hidden 变量 h。貌似,world model 有可能是可微的,能提供梯度以用于梯度上升 discounted return。
