2025年10月，这篇论文速读记录是如何的？

摘要：目录Efficient Skill Discovery via Regret-Aware Optimization1 故事2 method3 相关思考Seohong Park 的两篇博客：Q-learning is not yet scal

目录Efficient Skill Discovery via Regret-Aware Optimization1 故事2 method3 相关思考Seohong Park 的两篇博客：Q-learning is not yet scalable 和 Dual representations[Quasimetric] On the Learning and Learnability of Quasimetrics[Quasimetric] Optimal Goal-Reaching Reinforcement Learning via Quasimetric LearningUnderstanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere Efficient Skill Discovery via Regret-Aware Optimization arxiv：https://arxiv.org/abs/2506.21044 open review：https://openreview.net/forum?id=4qMJ8Ignmp GitHub：https://github.com/ZhHe11/RSD 来源：师弟提到。ICML 2025，3 3 2 1 poster。 1 故事传统无监督 skill discovery 方法通常均匀探索技能（指采样 p(z) 通常使用均匀采样）。然而，这篇文章声称，对于高维和非对称的 state space，我们可能需要集中精力去学未收敛的策略，因此均匀采样 skill z 可能导致训练效率低。这篇文章提出了 RSD（Regret-aware Skill Discovery），将 skill discovery 建模为 policy 与 skill 采样之间的 min-max 博弈：policy 学习降低 skill 的“遗憾值（regret）”，而技能生成器则去采样 regret 高的 skill，从而，引导 agent 探索其不擅长的方向，提高 skill discovery 训练效率。 2 method 总目标（Objective）是一个 min-max 博弈对抗：智能体（Agent）的目标：最小化遗憾 → 学好给定的技能。技能生成器（Skill Generator）的目标：最大化遗憾 → 找出智能体不擅长、需要学习的技能。数学形式： \[\min_{\theta_1}\max_{\theta_2}\mathbb{E}_{z\sim P_z}\left[Reg_k(z)\right] \] 其中，\(\theta_1\)：智能体策略的参数。\(\theta_2\)：技能生成器的参数。\(P_z\)：技能生成器的种群。\(Reg_k(z)\)：技能 \(z\) 在当前第 \(k\) 轮学习中的“遗憾值”。 2.1 Embedding（表征） \(\phi(s)\) 是怎么学的？ Build on metra 框架，RSD 学习一个 state embedding \(\phi(s)\)，将状态映射到一个有界的（通过 tanh）表征空间。在这个空间里，技能 \(z\) 代表一个目标点，agent 的任务就是让状态轨迹朝着 \(z\) “移动”。核心公式（10）： \[I_{\phi}(s_t, s_{t+1}, z) = \mathbb{E}\left[\sum_{t=0}^{T-1} (\phi(s_{t+1}) - \phi(s_{t}))^{\top} \cdot \vec{z}_{\text{updated}}\right] \] 直观理解：我们希望状态变化量 \((\phi(s_{t+1}) - \phi(s_{t}))\) 的方向，与技能方向 \(\vec{z}_{\text{updated}}\) 尽可能一致。 \(\vec{z}_{\text{updated}}\)（公式 9）是一个模长为 1 的归一化向量，方向由 \(z - \phi(s_t)\) 决定。这相当于让智能体朝着“目标点 \(z\) 相对于当前位置 \(\phi(s_t)\) 的方向”前进。

2025年10月，这篇论文速读记录是如何的？

相关推荐