2025年2月修改的论文速读记录是关于什么主题的?
摘要:目录SEABO: A Simple Search-Based Method for Offline Imitation LearningTraining Agents using Upside-Down Reinforcement Lear
目录SEABO: A Simple Search-Based Method for Offline Imitation LearningTraining Agents using Upside-Down Reinforcement LearningCo-evolved Self-Critique: Enhancing Large Language Models with Self-Generated DataSuccessor Features for Transfer in Reinforcement LearningOptimistic planning of deterministic systemsLearning Augmented Index Policy for Optimal Service Placement at the Network Edge
SEABO: A Simple Search-Based Method for Offline Imitation Learning
arxiv:https://arxiv.org/abs/2402.03807
GitHub:https://github.com/dmksjfl/SEABO
来源:好像是师兄的工作,ICLR 2024。
主要内容:
故事:Offline RL 中的 distribution shift 问题,在 offline IL 中也同样存在(好有道理,感觉是适合发论文的思考方式)。貌似已经有研究将 Offline RL 中限制 policy 与行为策略接近的方法应用到 IL 中了。
SEABO 的主要思想:根据 expert demo 建立一个 KD 树,基于 KD 树判断一个 transition 或 state 是否接近专家轨迹,如果接近,就给它分配更高的 reward。最后,通过这些标记的 reward 应用 offline RL 算法。
(无端联想,好像有人说 RLHF 的 reward model 用神经网络会有局限性,比如更倾向于长的输出;如果用树模型等方式可能会更好;好像是 deepseek 说的)
技术细节:
(s,a,s') 的 reward = exp[-\(\beta ~\cdot\) 它与最近邻的欧几里得距离 / 动作空间维度];
最近邻是指与当前点欧几里得距离最小的 expert transition,使用 KD tree 来寻找。
KD tree:是二叉树在 K-dimension 空间的拓展,KD- tree 算法详解。
SEABO 做了一个 demo 实验,发现学出来的 reward 跟 ground truth reward 很接近。(无端联想,这可以作为一种 reward shaping 思路)
实验:
在 D4RL 上进行实验,包含 walker、halfcheetah 等 MuJoCo 环境,以及 AntMaze 和 adroid。
Setting:一条专家轨迹 + D4RL 的不含 reward 信号的 offline dataset。
Baselines:ground truth 的 IQL、reward learning + IQL、IL。
Training Agents using Upside-Down Reinforcement Learning
arxiv:https://arxiv.org/abs/1912.02877
来源:曾经感兴趣的 Upside Down RL。
主要内容:
UDRL 是一种 hindsight 方法,它的 hindsight 数据是 (episode 剩余 return 大小, episode 剩余步数),与 Decision Transformer 训练数据类似。
具体的,UDRL 使用监督学习来学习 policy,输入为 state 和 hindsight 信息,输出为 action 的概率分布;UDRL 在 online RL 中进行实验,而 DT 是 offline 的。
UDRL 声称这种 hindsight 方法有一些可能的优势,包括:1. 适用于稀疏 / delayed reward,2. 受决策频率影响小,3. 干掉了现实中其实并不存在的 discount factor,4. 可以用监督学习处理复杂的 transition 数据。
