专题:x1F375 论文阅读
共25篇相关文章

MiroThinker的技术报告里,有哪些策略可以分享?
整理了 MiroThinker 的技术报告和公开资料。目前 MiroThinker release 了三份技术报告,分别是 mirothinker 1.0、mirothinker 1.7 和 miroflow。 目录1. 官方网站2. 开源...

无监督技能发现的经典工作有哪些,你能一一列举吗?
目录🐱 UnsupervisedDiversity is All You Need: Learning Skills without a Reward Function (diayn)Explore, Dis...

强化学习及其他领域中的scaling laws有哪些效应?
目录论文列表故事线分析Scaling laws for single-agent reinforcement learningalpha zero 式的 MARLrobotics 的 imitation learningGCRLcontra...

如何FOCAL等经典工作的数据收集性能测试方法为?
整理了 focal 等经典 offline meta-RL 工作的 1. offline 数据集收集、2. policy 训练和性能测试的方法。...

LLM通常指的是大型语言模型(Large Language Model),这是一种基于深度学习技术构建的模型,能够理解和生成人类语言。LLM通过分析大量的文本数据来学习语言的规律和结构,从而能够进行文本生成、机器翻译、情感分析等多种任务。如果您需要关于LL
这个 repo 总结了 LLM agents play games 的论文,最近读了一些。 论文列表: Plan4MC: Skill Reinforcement Learning and Planning for Open-World Mi...

LLM通常指的是大型语言模型(Large Language Model),这是一种基于深度学习技术构建的模型,能够理解和生成人类语言。LLM通过分析大量的文本数据来学习语言的规律和结构,从而能够进行文本生成、机器翻译、情感分析等多种任务。如果您需要关于LL
这篇文章使用 LLM 生成了各种 MineCraft 的 skill,但没有利用 LLM 的通识能力,感觉不算 LLM agent 的工作。...

LLM通常指的是大型语言模型(Large Language Model),这是一种基于深度学习技术构建的模型,能够理解和生成人类语言。LLM通过分析大量的文本数据来学习语言的规律和结构,从而能够进行文本生成、机器翻译、情感分析等多种任务。如果您需要关于LL
感觉性能好的关键原因:1. prompt 写得好,可以高效沟通;2. agent 记忆的信息形式很简洁。...

LLM通常指的是大型语言模型(Large Language Model),这是一种基于深度学习技术构建的模型,能够理解和生成人类语言。LLM通过分析大量的文本数据来学习语言的规律和结构,从而能够进行文本生成、机器翻译、情感分析等多种任务。如果您需要关于LL
论文标题:Large Language Models Play StarCraft II: Benchmarks and A Chain of Summarization Approach 最初发表时间:2023.12 arxiv:http...

LLM通常指的是大型语言模型(Large Language Model),这是一种基于深度学习技术构建的模型,能够理解和生成人类语言。LLM通过分析大量的文本数据来学习语言的规律和结构,从而能够进行文本生成、机器翻译、情感分析等多种任务。如果您需要关于LL
Avalon's Game of Thoughts: Battle Against Deception through Recursive Contemplation 论文标题:Avalon'...

很抱歉,您提供的信息RL并不完整,我无法确定您想要表达的具体内容。如果您能提供更多的上下文或者详细信息,我会尽力帮助您。例如,RL可能是机器学习中的强化学习(Reinforcement Learning)的缩写,或者是其他任何需要解释的术语。请提供更多信息
鼓励 agent 探索与当前 episode 历史在到达时间(temporal distance)上较远的状态。...

最近读的 MARL 文章,有哪些策略在多智能体强化学习中的应用?
鸣谢专家提供论文列表。 目录01 MARL 算法[MADDPG] Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments[VDN] Value-Deco...

RL | AIR-DREAM Lab 最新论文提出了哪些生成新方法?
一直对这个组的方向很感兴趣,于是速读一下这个组的最新文章。 (这篇笔记仅存档自用。以下论文完全是速读,没有进行任何精读,记录的笔记全都是 给我输入文章摘要 + 框图之后,我输出出来的幻觉,没有什么参考价值;还可能有少量 d...

Skill Discovery | DoDont 是一个概念或游戏,旨在通过一系列的做和不做的指令来帮助玩家发现和练习新技能。以下是一个基于这个概念的示例,使用 do 和 don't:**Skill: Public Speaking****Do:
论文标题:Do's and Don'ts: Learning Desirable Skills with Instruction Videos NeurIPS 2024 poster。 arx...

如何通过LLMCLIP调整dodont权重,引导agent安全探索?
使用 LLMCLIP 模型,输出 statepixel observation 与人类意图的匹配程度,作为 dodont 的加权权重。...

如何用描述状态的嵌入距离为的?
用语义距离 d_lang(x,y) = cos_sim[ l(s_1), l(s_2)] ,来作为 metra 的 1-Lipschitz 约束。...
