2026年1月的论文速读记录为，可以这样表达：2026年1月的论文速读记录是如何的？

目录Multi-Task Learning as Multi-Objective OptimizationPolicy Likelihood-based Query Sampling and Critic-Exploited Reset for Efficient Preference-based Reinforcement LearningCan a MISL Fly? Analysis and Ingredients for Mutual Information Skill Learning Multi-Task Learning as Multi-Objective Optimization arxiv：https://arxiv.org/abs/1810.04650 来源：合作者提到的论文，用 multi-objective 的方式来解决 multi-task 问题。NeurIPS 2018。（感觉对 RL 来说，如果 multi-task 的 task 之间 transition 相同，只有 reward 不同，那么问题 setting 好像跟 multi-objective 挺像的（）参考博客：CSDN | MGDA-UB：寻找多任务学习中的帕累托最优，缓解任务冲突问题主要内容：这篇文章提出名为 MGDA-UB 的方法，是 MGDA 方法的改进。感觉 MGDA 的思想很有趣：如果各个 task 的梯度方向不同，我们应该选一个这些梯度的加权和来作为梯度下降的梯度。这篇文章认为选择令 \(\|\sum \alpha_i\nabla L_i\|^2\) 这个二范数最小的加权，是最好的。直观理解：我们考虑只有两个 task 的情况。我们在 \(\nabla L_1, \nabla L_2\) 两个梯度里面加权，这相当于，\(\nabla L_1, \nabla L_2\) 组成三角形的两条边，我们在三角形的第三条边上选择一个点。这篇文章认为选择垂直于第三条边（即三角形的高与第三条边的交点），这样选是最好的。 MGDA-UB 相对 MGDA 方法的改进，大概是在参数空间很大的情况下，上述的点比较难找，因此对于先学各个 task 共用的 representation、再在 representation 上加多个 head 实现 multi-task 的架构，我们使用 \(\nabla_\theta L_t = (\partial L_t / \partial Z) \nabla_Z L_t\) 来做，\(\nabla_Z L_t\) 的参数空间貌似小很多。这个方法好像有理论保证。关于梯度的思考【】有一篇 air 的有些像的论文后续阅读记录（本站博客）：基于梯度组合的多任务 / 多目标学习 Policy Likelihood-based Query Sampling and Critic-Exploited Reset for Efficient Preference-based Reinforcement Learning 来源：ICLR 2026 的新工作，QPA 的后续工作。 OpenReview：https://openreview.net/forum?id=ITeuGb2bYg 主要内容：PbRL。对 1. query-policy alignment，2. reward model 定期重置（作用：减少初始偏差，防止奖励高估）两个技术进行了改进。具体的，对于 query-policy alignment，这篇论文用一个 segment 被当前策略生成的 log likelihood 来度量 query-policy alignment 的程度。对于 reward model 定期重置，当 Q 值超过一个动态阈值时，这篇文章重置奖励模型和 Q 函数，这个动态阈值随时间单调增长，避免过度重置。没仔细看，不确定是对的。 Can a MISL Fly? Analysis and Ingredients for Mutual Information Skill Learning arxiv：https://arxiv.org/abs/2412.08021 GitHub：https://github.com/Princeton-RL/contrastive-successor-features 来源：小火箭（csf）是 metra 的后续工作，将 metra 和互信息方法关联起来。 ICLR 2025 Oral。

2026年1月的论文速读记录为，可以这样表达：2026年1月的论文速读记录是如何的？

相关推荐