2025年9月修改的论文速读记录,有哪些疑问点?
摘要:目录SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions一、背景与动机:传统 USD 的困境二、核心概念:因子化与交互的定义三、SkiLD 算法流程:分层学习与交
目录SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions一、背景与动机:传统 USD 的困境二、核心概念:因子化与交互的定义三、SkiLD 算法流程:分层学习与交互驱动四、实验验证与性能指标Disentangled Unsupervised Skill Discovery for Efficient Hierarchical Reinforcement Learning (DUDSi)一、背景与核心问题:skill 效果的“相互纠缠”二、DUSDi 方法详解:解耦与优化三、实验验证与性能优势四、总结与适用性
SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions
arxiv:https://arxiv.org/abs/2410.18416
open review:https://openreview.net/forum?id=i816TeqgVh
website:https://wangzizhao.github.io/SkiLD/
来源:同学的 claude 推荐的文章。neurips 2024,8 6 5 5 poster,5 是 borderline ac。
(发现这篇文章不是韩国人的)
主要内容:
一、背景与动机:传统 USD 的困境
1.1 任务设定:无监督技能发现 (unsupervised skill discovery,USD)
USD 的目标是在没有外部奖励的 setting 下,让智能体纯探索,自主学习一套可复用、有意义的低级技能(Skills)。这些 skill 随后可用于高效解决下游任务,甚至是一些长视界、稀疏奖励的下游任务。
(但是感觉,这篇文章并没有做传统 skill discovery,而是在做一种 goal-conditioned RL:想学会操作各种物体,policy 的 condition 是操作方式)
1.2 传统方法的瓶颈 (The Gap)
现有主流方法(如 DIAYN)的核心是多样性最大化,即鼓励智能体学习可区分的行为,并覆盖尽可能多样的状态。
然而,在如家庭环境(厨房、客厅)等复杂场景中,状态空间因物体数量(状态因素)的增加而指数级爆炸,导致传统方法面临两大挑战:
效率低下: 试图覆盖所有状态是徒劳的。
技能简单: 智能体倾向于学习“容易”的技能,例如只移动自身到不同位置,或独立地移动某个物体,而忽略了物体间的复杂交互。
核心 Motivation: 许多复杂任务的瓶颈状态都涉及状态因素之间的关键交互(例如,机器人必须先抓取刀,才能用它去切割水果)。SkiLD 的动机是:与其被动地等待随机探索“撞到”这些关键交互,不如主动地将“诱导特定交互”作为技能学习的目标。
二、核心概念:因子化与交互的定义
SkiLD 的方法建立在两个关键概念之上:
2.1 因子化 MDP (Factored MDP)
概念: 将整个环境状态 \(S\) 分解为 \(N\) 个独立的状态因子(State Factors)的组合:\(S = S_1 \times S_2 \times \cdots \times S_N\)。
例子: 在厨房环境中,状态 \(S\) 被分解为 \(S_1\)(机器人的位置)、\(S_2\)(刀的位置)、\(S_3\)(桃子的状态)等。
作用: 这种分解为我们讨论和形式化“因素之间的交互”提供了基础。
2.2 局部依赖图 \(G\)(这篇文章中,agent 与物体的“交互”的定义)
概念: \(G\) 是一个 N×(N+1) 的二值矩阵,它描述了在一次状态转移 \((s, a, s')\) 中,哪些当前状态因素 \(S_j\) 对下一个状态因素 \((S_i)'\) 的变化产生了影响(即发生了交互)。
例子: 智能体用刀切桃子。下一个状态的桃子 \((S_{\text{Peach}})'\) 的变化,依赖于当前状态的刀 \(S_{\text{Knife}}\) 和智能体 \(S_{\text{Agent}}\)。图 \(G\) 中对应的元素 \(G_{\text{Peach}, \text{Knife}}\) 和 \(G_{\text{Peach}, \text{Agent}}\) 为 1。
作用: SkiLD 将达成特定的 \(G\)(即达成特定的交互)定义为一种有意义的技能。
三、SkiLD 算法流程:分层学习与交互驱动
SkiLD 采用分层强化学习(HRL)架构,分为技能学习(无监督)和任务学习(有监督)两个阶段。
