2026年2月修改的论文速读记录，有哪些疑问点？

目录Explore, Discover and Learn: Unsupervised Discovery of State-Covering SkillsTQL: Scaling Q-Functions with Transformers by Preventing Attention CollapseOn the Paradoxical Interference between Instruction-Following and Task Solving Explore, Discover and Learn: Unsupervised Discovery of State-Covering Skills 来源：EDL 是 skill discovery 的早期工作，ICML 2020。 arxiv：https://arxiv.org/abs/2002.03647 html：https://ar5iv.labs.arxiv.org/html/2002.03647 GitHub：https://github.com/victorcampos7/edl EDL 跟先前工作一样，希望最大化 s 和 z 之间的互信息 \(I(s;z)\)。EDL 采用 forward MI，即 \(I(s;z) = H(s) - H(s|z)\)。第一项让 EDL 希望最大化 state 的熵，尽可能探索更多 state，而第二项希望给定 z 之后，state 的熵能尽量小，也就是可以通过 z 推断 state。 Explore, Discover and Learn： Explore：这一阶段的目标是，获取覆盖良好的固定分布 p(s)。如果有 oracle，我们可以采样一个均匀的 p(s)；也可以使用 SMM 方法探索，让 policy 的边际状态分布匹配目标分布，如均匀分布。 Discovery：使用 VQ-VAE 建模 \(q(s|z), ~ q(z|s)\)。VQ-VAE用于处理离散的 skill。 Learn：去学一个 policy \(\pi(a | s,z)\)，intrinsic reward 为 \(r(s,z')=\log q_\phi(s|z')\)，这个形式是从 forward MI 里推出来的，最小化 \(H(s|z)\) 这一项。EDL 使用 PPO 来学这个 policy。我们假设 \(p(s | z)\) 服从高斯分布，但这个假设貌似忽略了迷宫的连通性，比如欧氏距离很近的两个点可能 reward 差不多大，但可能分布在墙的两侧（？）有些问题，会导致性能没那么好。所以，EDL 使用 Sibling Rivalry 技术来跳出局部最优，具体的，维护两个竞争策略 π1, π2，\(r_\text{shaped} = r(s,z) − ϵ · I[\text{other agent reached closer}]\)。或等价实现：给远离目标的状态额外惩罚。这样可以减少策略陷入局部最优的时间，加速 learning。实验： EDL 的实验环境是 2D 连续迷宫，评价指标主要使用定性可视化。baseline 是 VIC、DIAYN（reverse MI）和 DADS（forward MI）。EDL 相比先前方法的优势： reverse 方法中，策略为了获得高奖励，会倾向于反复访问最初随机探索到的状态，因为这些 state 的 \(H(z | s)\) 更小，而一个随机 state 的 z 可能没有对应，因此 \(H(z | s)\) 比较大。DADS 好像也有相似的问题。 deepseek 说，这些方法共同的问题是，策略自身产生的状态分布 \(ρ_π(s)\) 来近似目标分布 p(s)，而 EDL 通过引入固定的 p(s) 彻底解决了这个问题。 EDL 使用离散的 skill，所以使用 VQ-VAE。EDL 声称，使用离散 skill 的原因，主要是 reverse MI 方法没法用连续 skill，是为了公平性，而 EDL 框架理论上是可以用连续 skill 的。图 4：改变 EDL 在 explore 部分的覆盖的区域，可以让后面学到的 skill 只覆盖我们想要的区域。 TQL: Scaling Q-Functions with Transformers by Preventing Attention Collapse 来源：Chelsea Finn 出品，关注 value function scaling 问题，跟 seohong park 关注的 Q-learning is not yet scalable 感觉相关。

2026年2月修改的论文速读记录，有哪些疑问点？

相关推荐