2025年2月修改的论文速读记录是关于什么主题的？

目录SEABO: A Simple Search-Based Method for Offline Imitation LearningTraining Agents using Upside-Down Reinforcement LearningCo-evolved Self-Critique: Enhancing Large Language Models with Self-Generated DataSuccessor Features for Transfer in Reinforcement LearningOptimistic planning of deterministic systemsLearning Augmented Index Policy for Optimal Service Placement at the Network Edge SEABO: A Simple Search-Based Method for Offline Imitation Learning arxiv：https://arxiv.org/abs/2402.03807 GitHub：https://github.com/dmksjfl/SEABO 来源：好像是师兄的工作，ICLR 2024。主要内容：故事：Offline RL 中的 distribution shift 问题，在 offline IL 中也同样存在（好有道理，感觉是适合发论文的思考方式）。貌似已经有研究将 Offline RL 中限制 policy 与行为策略接近的方法应用到 IL 中了。 SEABO 的主要思想：根据 expert demo 建立一个 KD 树，基于 KD 树判断一个 transition 或 state 是否接近专家轨迹，如果接近，就给它分配更高的 reward。最后，通过这些标记的 reward 应用 offline RL 算法。（无端联想，好像有人说 RLHF 的 reward model 用神经网络会有局限性，比如更倾向于长的输出；如果用树模型等方式可能会更好；好像是 deepseek 说的）技术细节： (s,a,s') 的 reward = exp[-\(\beta ~\cdot\) 它与最近邻的欧几里得距离 / 动作空间维度]；最近邻是指与当前点欧几里得距离最小的 expert transition，使用 KD tree 来寻找。 KD tree：是二叉树在 K-dimension 空间的拓展，KD- tree 算法详解。 SEABO 做了一个 demo 实验，发现学出来的 reward 跟 ground truth reward 很接近。（无端联想，这可以作为一种 reward shaping 思路）实验：在 D4RL 上进行实验，包含 walker、halfcheetah 等 MuJoCo 环境，以及 AntMaze 和 adroid。 Setting：一条专家轨迹 + D4RL 的不含 reward 信号的 offline dataset。 Baselines：ground truth 的 IQL、reward learning + IQL、IL。 Training Agents using Upside-Down Reinforcement Learning arxiv：https://arxiv.org/abs/1912.02877 来源：曾经感兴趣的 Upside Down RL。主要内容： UDRL 是一种 hindsight 方法，它的 hindsight 数据是 (episode 剩余 return 大小, episode 剩余步数)，与 Decision Transformer 训练数据类似。具体的，UDRL 使用监督学习来学习 policy，输入为 state 和 hindsight 信息，输出为 action 的概率分布；UDRL 在 online RL 中进行实验，而 DT 是 offline 的。 UDRL 声称这种 hindsight 方法有一些可能的优势，包括：1. 适用于稀疏 / delayed reward，2. 受决策频率影响小，3. 干掉了现实中其实并不存在的 discount factor，4. 可以用监督学习处理复杂的 transition 数据。

2025年2月修改的论文速读记录是关于什么主题的？

相关推荐