2026年1月的论文速读记录为,可以这样表达:2026年1月的论文速读记录是如何的?

摘要:目录Multi-Task Learning as Multi-Objective OptimizationPolicy Likelihood-based Query Sampling and Critic-Exploited Reset f
目录Multi-Task Learning as Multi-Objective OptimizationPolicy Likelihood-based Query Sampling and Critic-Exploited Reset for Efficient Preference-based Reinforcement LearningCan a MISL Fly? Analysis and Ingredients for Mutual Information Skill Learning Multi-Task Learning as Multi-Objective Optimization arxiv:https://arxiv.org/abs/1810.04650 来源:合作者提到的论文,用 multi-objective 的方式来解决 multi-task 问题。NeurIPS 2018。 (感觉对 RL 来说,如果 multi-task 的 task 之间 transition 相同,只有 reward 不同,那么问题 setting 好像跟 multi-objective 挺像的() 参考博客:CSDN | MGDA-UB:寻找多任务学习中的帕累托最优,缓解任务冲突问题 主要内容: 这篇文章提出名为 MGDA-UB 的方法,是 MGDA 方法的改进。感觉 MGDA 的思想很有趣:如果各个 task 的梯度方向不同,我们应该选一个 这些梯度的加权和 来作为梯度下降的梯度。这篇文章认为选择令 \(\|\sum \alpha_i\nabla L_i\|^2\) 这个二范数最小的加权,是最好的。 直观理解:我们考虑只有两个 task 的情况。我们在 \(\nabla L_1, \nabla L_2\) 两个梯度里面加权,这相当于,\(\nabla L_1, \nabla L_2\) 组成三角形的两条边,我们在三角形的第三条边上选择一个点。这篇文章认为选择垂直于第三条边(即三角形的高与第三条边的交点),这样选是最好的。 MGDA-UB 相对 MGDA 方法的改进,大概是在参数空间很大的情况下,上述的点比较难找,因此对于先学各个 task 共用的 representation、再在 representation 上加多个 head 实现 multi-task 的架构,我们使用 \(\nabla_\theta L_t = (\partial L_t / \partial Z) \nabla_Z L_t\) 来做,\(\nabla_Z L_t\) 的参数空间貌似小很多。 这个方法好像有理论保证。 关于梯度的思考【】有一篇 air 的有些像的论文 后续阅读记录(本站博客):基于梯度组合的多任务 / 多目标学习 Policy Likelihood-based Query Sampling and Critic-Exploited Reset for Efficient Preference-based Reinforcement Learning 来源:ICLR 2026 的新工作,QPA 的后续工作。 OpenReview:https://openreview.net/forum?id=ITeuGb2bYg 主要内容:PbRL。对 1. query-policy alignment,2. reward model 定期重置(作用:减少初始偏差,防止奖励高估) 两个技术进行了改进。 具体的,对于 query-policy alignment,这篇论文用一个 segment 被当前策略生成的 log likelihood 来度量 query-policy alignment 的程度。对于 reward model 定期重置,当 Q 值超过一个动态阈值时,这篇文章重置奖励模型和 Q 函数,这个动态阈值随时间单调增长,避免过度重置。 没仔细看,不确定是对的。 Can a MISL Fly? Analysis and Ingredients for Mutual Information Skill Learning arxiv:https://arxiv.org/abs/2412.08021 GitHub:https://github.com/Princeton-RL/contrastive-successor-features 来源:小火箭(csf)是 metra 的后续工作,将 metra 和互信息方法关联起来。 ICLR 2025 Oral。
阅读全文