2025年8月修改的论文速读记录，有哪些疑问点？

目录Guiding Pretraining in Reinforcement Learning with Large Language Models Guiding Pretraining in Reinforcement Learning with Large Language Models arxiv：http://arxiv.org/abs/2302.06692 GitHub：https://github.com/yuqingd/ellm 来源：[mask]，ICML 2023。主要内容：想做的事情似乎非常简单：为了鼓励 agent 探索，在 external reward \(r\) 的同时引入一个 intrinsic reward \(r_\text{int}\)，或直接让 intrinsic reward 替代 \(r\)。\(r_\text{int}\) 定义为 goal conditioned 的形式，\(r_\text{int}(o, a, o')=\mathbb E_{g\sim G}r_\text{int}(o,a,o'|g)\)。因为 \(r_\text{int}\) 是用来鼓励探索的，所以问题变成了，如何采样多样化的、合理符合常识的、人类关心的目标 g。这篇工作（Exploring with LLMs，ELLM）让 LLM 来生成目标 g，具体的，先给 LLM 输入当前的状态一句描述（似乎通过 oracle 得到），然后让 LLM 生成一个值得被完成的目标 list。然后，对于当前 episode 里的每一个 state，使用 Sentence-BERT 计算相似度[state 一句描述, LLM 生成的目标]，如果相似度对某个目标超过一个阈值，则认为 agent 完成了这个目标，在这个 episode 里，就不会再重复奖励这个目标了。故事：为了在实践中掌握复杂的任务，RL agent 可能需要在没有外部定义的奖励的情况下学习一些行为。它们可以基于新颖性、惊喜、不确定性或预测错误来探索，但是并非所有新奇或不可预测的东西都是有用的，与任何对人类有意义的目标相对应的行为才是有用的。

2025年8月修改的论文速读记录，有哪些疑问点？

相关推荐