2026年2月修改的论文速读记录,有哪些疑问点?
摘要:目录Explore, Discover and Learn: Unsupervised Discovery of State-Covering SkillsTQL: Scaling Q-Functions with Transformers
目录Explore, Discover and Learn: Unsupervised Discovery of State-Covering SkillsTQL: Scaling Q-Functions with Transformers by Preventing Attention CollapseOn the Paradoxical Interference between Instruction-Following and Task Solving
Explore, Discover and Learn: Unsupervised Discovery of State-Covering Skills
来源:EDL 是 skill discovery 的早期工作,ICML 2020。
arxiv:https://arxiv.org/abs/2002.03647
html:https://ar5iv.labs.arxiv.org/html/2002.03647
GitHub:https://github.com/victorcampos7/edl
EDL 跟先前工作一样,希望最大化 s 和 z 之间的互信息 \(I(s;z)\)。EDL 采用 forward MI,即 \(I(s;z) = H(s) - H(s|z)\)。第一项让 EDL 希望最大化 state 的熵,尽可能探索更多 state,而第二项希望给定 z 之后,state 的熵能尽量小,也就是可以通过 z 推断 state。
Explore, Discover and Learn:
Explore:这一阶段的目标是,获取覆盖良好的固定分布 p(s)。如果有 oracle,我们可以采样一个均匀的 p(s);也可以使用 SMM 方法探索,让 policy 的边际状态分布匹配目标分布,如均匀分布。
Discovery:使用 VQ-VAE 建模 \(q(s|z), ~ q(z|s)\)。VQ-VAE用于处理离散的 skill。
Learn:去学一个 policy \(\pi(a | s,z)\),intrinsic reward 为 \(r(s,z')=\log q_\phi(s|z')\),这个形式是从 forward MI 里推出来的,最小化 \(H(s|z)\) 这一项。EDL 使用 PPO 来学这个 policy。
我们假设 \(p(s | z)\) 服从高斯分布,但这个假设貌似忽略了迷宫的连通性,比如欧氏距离很近的两个点可能 reward 差不多大,但可能分布在墙的两侧(?)有些问题,会导致性能没那么好。
所以,EDL 使用 Sibling Rivalry 技术来跳出局部最优,具体的,维护两个竞争策略 π1, π2,\(r_\text{shaped} = r(s,z) − ϵ · I[\text{other agent reached closer}]\)。或等价实现:给远离目标的状态额外惩罚。这样可以减少策略陷入局部最优的时间,加速 learning。
实验:
EDL 的实验环境是 2D 连续迷宫,评价指标主要使用定性可视化。baseline 是 VIC、DIAYN(reverse MI)和 DADS(forward MI)。EDL 相比先前方法的优势:
reverse 方法中,策略为了获得高奖励,会倾向于反复访问 最初随机探索到的状态,因为这些 state 的 \(H(z | s)\) 更小,而一个随机 state 的 z 可能没有对应,因此 \(H(z | s)\) 比较大。DADS 好像也有相似的问题。
deepseek 说,这些方法共同的问题是,策略自身产生的状态分布 \(ρ_π(s)\) 来近似目标分布 p(s),而 EDL 通过引入固定的 p(s) 彻底解决了这个问题。
EDL 使用离散的 skill,所以使用 VQ-VAE。EDL 声称,使用离散 skill 的原因,主要是 reverse MI 方法没法用连续 skill,是为了公平性,而 EDL 框架理论上是可以用连续 skill 的。
图 4:改变 EDL 在 explore 部分的覆盖的区域,可以让后面学到的 skill 只覆盖我们想要的区域。
TQL: Scaling Q-Functions with Transformers by Preventing Attention Collapse
来源:Chelsea Finn 出品,关注 value function scaling 问题,跟 seohong park 关注的 Q-learning is not yet scalable 感觉相关。
