LLM通常指的是大型语言模型(Large Language Model),这是一种基于深度学习技术构建的模型,能够理解和生成人类语言。LLM通过分析大量的文本数据来学习语言的规律和结构,从而能够进行文本生成、机器翻译、情感分析等多种任务。如果您需要关于LL

摘要:这篇文章使用 LLM 生成了各种 MineCraft 的 skill,但没有利用 LLM 的通识能力,感觉不算 LLM agent 的工作。
文章标题:Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks 最初发表时间:2023.03 arxiv:https://arxiv.org/abs/2303.16563 GitHub:https://github.com/PKU-RL/Plan4MC 网站:https://sites.google.com/view/plan4mc 最初发在 NeurIPS 2023 Workshop FMDM,后来 ICLR 2024 拒稿。 目录01 main idea02 如何确定要学的 skill 列表03 如何获取一个 low-level skill 的 policy04 如何根据目标进行 high-level 规划misc ← 返回目录 01 main idea high-level 规划 + 基于 RL 的 low-level 执行。 首先,让 LLM 生成基本 skill(技能),例如找到某个物品、制作某个物品。LLM 会提供 skill 的输入(比如制造物品需要消耗什么、需要背包里已经有什么)和输出(制造物品后 得到了新物品)。 基于 RL,学会执行每一个 low-level skill:这一步是常规的 RL 训练,为每个 skill 训练一个 policy。 high-level planning:给定一个目标后,根据 LLM 生成的 skill 的输入输出,可以建一个有向无环图(DAG),这个图说明了我们执行任务的逻辑关系。然后,在图上进行搜索,找到从起点到终点的最短路,依次执行路径上的 skill。 02 如何确定要学的 skill 列表 提出了三种细粒度的基本 skill: Finding-skills,找到某个物品; Manipulation-skills,操作某个工具; Crafting-skills,制作某个物品。 使用 ChatGPT 生成 skill 信息(prompt 见附录 E),ChatGPT 能够生成所有 skill(55 个),犯了 6 个错误,作者手动更正了错误。
阅读全文