2025年8月修改的论文速读记录,有哪些疑问点?
摘要:目录Guiding Pretraining in Reinforcement Learning with Large Language Models Guiding Pretraining in Reinforcement Learning
目录Guiding Pretraining in Reinforcement Learning with Large Language Models
Guiding Pretraining in Reinforcement Learning with Large Language Models
arxiv:http://arxiv.org/abs/2302.06692
GitHub:https://github.com/yuqingd/ellm
来源:[mask],ICML 2023。
主要内容:
想做的事情似乎非常简单:
为了鼓励 agent 探索,在 external reward \(r\) 的同时引入一个 intrinsic reward \(r_\text{int}\),或直接让 intrinsic reward 替代 \(r\)。\(r_\text{int}\) 定义为 goal conditioned 的形式,\(r_\text{int}(o, a, o')=\mathbb E_{g\sim G}r_\text{int}(o,a,o'|g)\)。因为 \(r_\text{int}\) 是用来鼓励探索的,所以问题变成了,如何采样多样化的、合理 符合常识的、人类关心的目标 g。
这篇工作(Exploring with LLMs,ELLM)让 LLM 来生成目标 g,具体的,先给 LLM 输入当前的状态一句描述(似乎通过 oracle 得到),然后让 LLM 生成一个值得被完成的目标 list。然后,对于当前 episode 里的每一个 state,使用 Sentence-BERT 计算 相似度[state 一句描述, LLM 生成的目标],如果相似度对某个目标超过一个阈值,则认为 agent 完成了这个目标,在这个 episode 里,就不会再重复奖励这个目标了。
故事:为了在实践中掌握复杂的任务,RL agent 可能需要在没有外部定义的奖励的情况下学习一些行为。它们可以基于新颖性、惊喜、不确定性或预测错误 来探索,但是并非所有新奇或不可预测的东西都是有用的,与任何对人类有意义的目标相对应的行为才是有用的。
