LLM通常指的是大型语言模型（Large Language Model），这是一种基于深度学习技术构建的模型，能够理解和生成人类语言。LLM通过分析大量的文本数据来学习语言的规律和结构，从而能够进行文本生成、机器翻译、情感分析等多种任务。如果您需要关于LL

文章标题：Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks 最初发表时间：2023.03 arxiv：https://arxiv.org/abs/2303.16563 GitHub：https://github.com/PKU-RL/Plan4MC 网站：https://sites.google.com/view/plan4mc 最初发在 NeurIPS 2023 Workshop FMDM，后来 ICLR 2024 拒稿。目录01 main idea02 如何确定要学的 skill 列表03 如何获取一个 low-level skill 的 policy04 如何根据目标进行 high-level 规划misc ← 返回目录 01 main idea high-level 规划 + 基于 RL 的 low-level 执行。首先，让 LLM 生成基本 skill（技能），例如找到某个物品、制作某个物品。LLM 会提供 skill 的输入（比如制造物品需要消耗什么、需要背包里已经有什么）和输出（制造物品后得到了新物品）。基于 RL，学会执行每一个 low-level skill：这一步是常规的 RL 训练，为每个 skill 训练一个 policy。 high-level planning：给定一个目标后，根据 LLM 生成的 skill 的输入输出，可以建一个有向无环图（DAG），这个图说明了我们执行任务的逻辑关系。然后，在图上进行搜索，找到从起点到终点的最短路，依次执行路径上的 skill。 02 如何确定要学的 skill 列表提出了三种细粒度的基本 skill： Finding-skills，找到某个物品； Manipulation-skills，操作某个工具； Crafting-skills，制作某个物品。使用 ChatGPT 生成 skill 信息（prompt 见附录 E），ChatGPT 能够生成所有 skill（55 个），犯了 6 个错误，作者手动更正了错误。

相关推荐