2025年10月,这篇论文速读记录是如何的?

摘要:目录Efficient Skill Discovery via Regret-Aware Optimization1 故事2 method3 相关思考Seohong Park 的两篇博客:Q-learning is not yet scal
目录Efficient Skill Discovery via Regret-Aware Optimization1 故事2 method3 相关思考Seohong Park 的两篇博客:Q-learning is not yet scalable 和 Dual representations[Quasimetric] On the Learning and Learnability of Quasimetrics[Quasimetric] Optimal Goal-Reaching Reinforcement Learning via Quasimetric LearningUnderstanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere Efficient Skill Discovery via Regret-Aware Optimization arxiv:https://arxiv.org/abs/2506.21044 open review:https://openreview.net/forum?id=4qMJ8Ignmp GitHub:https://github.com/ZhHe11/RSD 来源:师弟提到。ICML 2025,3 3 2 1 poster。 1 故事 传统无监督 skill discovery 方法通常均匀探索技能(指采样 p(z) 通常使用均匀采样)。然而,这篇文章声称,对于高维和非对称的 state space,我们可能需要集中精力去学未收敛的策略,因此均匀采样 skill z 可能导致训练效率低。 这篇文章提出了 RSD(Regret-aware Skill Discovery),将 skill discovery 建模为 policy 与 skill 采样之间的 min-max 博弈:policy 学习降低 skill 的“遗憾值(regret)”,而技能生成器则去采样 regret 高的 skill,从而,引导 agent 探索其不擅长的方向,提高 skill discovery 训练效率。 2 method 总目标(Objective)是一个 min-max 博弈对抗: 智能体(Agent) 的目标:最小化遗憾 → 学好给定的技能。 技能生成器(Skill Generator) 的目标:最大化遗憾 → 找出智能体不擅长、需要学习的技能。 数学形式: \[\min_{\theta_1}\max_{\theta_2}\mathbb{E}_{z\sim P_z}\left[Reg_k(z)\right] \] 其中,\(\theta_1\):智能体策略的参数。\(\theta_2\):技能生成器的参数。\(P_z\):技能生成器的种群。\(Reg_k(z)\):技能 \(z\) 在当前第 \(k\) 轮学习中的“遗憾值”。 2.1 Embedding(表征) \(\phi(s)\) 是怎么学的? Build on metra 框架,RSD 学习一个 state embedding \(\phi(s)\),将状态映射到一个有界的(通过 tanh)表征空间。在这个空间里,技能 \(z\) 代表一个目标点,agent 的任务就是让状态轨迹朝着 \(z\) “移动”。 核心公式(10): \[I_{\phi}(s_t, s_{t+1}, z) = \mathbb{E}\left[\sum_{t=0}^{T-1} (\phi(s_{t+1}) - \phi(s_{t}))^{\top} \cdot \vec{z}_{\text{updated}}\right] \] 直观理解:我们希望状态变化量 \((\phi(s_{t+1}) - \phi(s_{t}))\) 的方向,与技能方向 \(\vec{z}_{\text{updated}}\) 尽可能一致。 \(\vec{z}_{\text{updated}}\)(公式 9)是一个模长为 1 的归一化向量,方向由 \(z - \phi(s_t)\) 决定。这相当于让智能体朝着“目标点 \(z\) 相对于当前位置 \(\phi(s_t)\) 的方向”前进。
阅读全文