2025年4月修改的论文速读记录是关于什么主题的？

目录Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement LearningOpen-World Reinforcement Learning over Long Short-Term ImaginationOn the Role of Discount Factor in Offline Reinforcement LearningModel-Agnostic Meta-Learning for Fast Adaptation of Deep NetworksFew-Shot Preference Learning for Human-in-the-Loop RLEfficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning arxiv：https://arxiv.org/abs/2305.15260 GitHub：https://github.com/qiwang067/CoWorld open review：https://openreview.net/pdf?id=ucxQrked0d 网站：https://qiwang067.github.io/coworld YouTube 视频：https://www.youtube.com/watch?v=ZDoS0df39W0 来源：下面那篇 LS-Imagine 作者的另一篇文章，发表于 NeurIPS 2024。主要内容：这篇文章关注视觉强化学习（vision RL）中的迁移学习，即，如何从 source task 上进行训练，并迁移到 target task 上进行评测。这篇文章的 setting 是 ① 能使用 target task 的 offline 数据集 + ② 可以 online 访问 source task → ③ 最后在 target task 上 evaluation。这篇文章使用的方法是 model-based RL。对于文章的 setting，deepseek 举了一个例子：想象你要通过观看旧菜谱视频（target task 的 offline 数据）学习烹饪，但无法亲自下厨练习。直接模仿视频可能遇到两个问题：过拟合：生搬硬套视频中的步骤，遇到新食材就手忙脚乱盲目自信：误以为某种危险操作（如猛火炒菜）会有好效果 CoWorld 的解决方案是：用一个厨房模拟游戏（在线模拟器）作为试验场（即 source task）。虽然游戏里的灶台 / 厨具和现实不同，但你可以：先在游戏中练习相似操作 → 获得更全面的经验把游戏中学到的技巧谨慎地应用到真实菜谱中 → 避免危险操作这篇文章为 source 和 target 任务分别维护两个 world model 和两个 agent，主要使用以下三种技术： ① Offline-to-Online State Alignment：目的是让两个 world model 的 state encoder 对于 offline target dataset 中的 obs，编码的 representation 结果更接近，通过最小化两个编码器输出的 KL 散度。原文中还有一些复杂公式，似乎是 model-based RL 中的常见做法，我看不太懂。为什么需要 state encoder？因为输入是 pixel-based 的视觉信息，需要先转换成 representation。 World model 的作用是什么？我理解为，它可以作为一个假环境来训练 agent，提供 observation、transition 和 reward。world model 不是马尔可夫的，会通过循环网络等方法维护一个包含历史信息的 hidden 变量 h。貌似，world model 有可能是可微的，能提供梯度以用于梯度上升 discounted return。

2025年4月修改的论文速读记录是关于什么主题的？

相关推荐