2025年9月修改的论文速读记录，有哪些疑问点？

摘要：目录SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions一、背景与动机：传统 USD 的困境二、核心概念：因子化与交互的定义三、SkiLD 算法流程：分层学习与交

目录SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions一、背景与动机：传统 USD 的困境二、核心概念：因子化与交互的定义三、SkiLD 算法流程：分层学习与交互驱动四、实验验证与性能指标Disentangled Unsupervised Skill Discovery for Efficient Hierarchical Reinforcement Learning (DUDSi)一、背景与核心问题：skill 效果的“相互纠缠”二、DUSDi 方法详解：解耦与优化三、实验验证与性能优势四、总结与适用性 SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions arxiv：https://arxiv.org/abs/2410.18416 open review：https://openreview.net/forum?id=i816TeqgVh website：https://wangzizhao.github.io/SkiLD/ 来源：同学的 claude 推荐的文章。neurips 2024，8 6 5 5 poster，5 是 borderline ac。（发现这篇文章不是韩国人的）主要内容：一、背景与动机：传统 USD 的困境 1.1 任务设定：无监督技能发现 (unsupervised skill discovery，USD) USD 的目标是在没有外部奖励的 setting 下，让智能体纯探索，自主学习一套可复用、有意义的低级技能（Skills）。这些 skill 随后可用于高效解决下游任务，甚至是一些长视界、稀疏奖励的下游任务。（但是感觉，这篇文章并没有做传统 skill discovery，而是在做一种 goal-conditioned RL：想学会操作各种物体，policy 的 condition 是操作方式） 1.2 传统方法的瓶颈 (The Gap) 现有主流方法（如 DIAYN）的核心是多样性最大化，即鼓励智能体学习可区分的行为，并覆盖尽可能多样的状态。然而，在如家庭环境（厨房、客厅）等复杂场景中，状态空间因物体数量（状态因素）的增加而指数级爆炸，导致传统方法面临两大挑战：效率低下：试图覆盖所有状态是徒劳的。技能简单：智能体倾向于学习“容易”的技能，例如只移动自身到不同位置，或独立地移动某个物体，而忽略了物体间的复杂交互。核心 Motivation：许多复杂任务的瓶颈状态都涉及状态因素之间的关键交互（例如，机器人必须先抓取刀，才能用它去切割水果）。SkiLD 的动机是：与其被动地等待随机探索“撞到”这些关键交互，不如主动地将“诱导特定交互”作为技能学习的目标。二、核心概念：因子化与交互的定义 SkiLD 的方法建立在两个关键概念之上： 2.1 因子化 MDP (Factored MDP) 概念：将整个环境状态 \(S\) 分解为 \(N\) 个独立的状态因子（State Factors）的组合：\(S = S_1 \times S_2 \times \cdots \times S_N\)。例子：在厨房环境中，状态 \(S\) 被分解为 \(S_1\)（机器人的位置）、\(S_2\)（刀的位置）、\(S_3\)（桃子的状态）等。作用：这种分解为我们讨论和形式化“因素之间的交互”提供了基础。 2.2 局部依赖图 \(G\)（这篇文章中，agent 与物体的“交互”的定义）概念： \(G\) 是一个 N×(N+1) 的二值矩阵，它描述了在一次状态转移 \((s, a, s')\) 中，哪些当前状态因素 \(S_j\) 对下一个状态因素 \((S_i)'\) 的变化产生了影响（即发生了交互）。例子：智能体用刀切桃子。下一个状态的桃子 \((S_{\text{Peach}})'\) 的变化，依赖于当前状态的刀 \(S_{\text{Knife}}\) 和智能体 \(S_{\text{Agent}}\)。图 \(G\) 中对应的元素 \(G_{\text{Peach}, \text{Knife}}\) 和 \(G_{\text{Peach}, \text{Agent}}\) 为 1。作用： SkiLD 将达成特定的 \(G\)（即达成特定的交互）定义为一种有意义的技能。三、SkiLD 算法流程：分层学习与交互驱动 SkiLD 采用分层强化学习（HRL）架构，分为技能学习（无监督）和任务学习（有监督）两个阶段。

2025年9月修改的论文速读记录，有哪些疑问点？

相关推荐