强化学习及其他领域中的scaling laws有哪些效应？

摘要：目录论文列表故事线分析Scaling laws for single-agent reinforcement learningalpha zero 式的 MARLrobotics 的 imitation learningGCRLcontra

目录论文列表故事线分析Scaling laws for single-agent reinforcement learningalpha zero 式的 MARLrobotics 的 imitation learningGCRLcontrastive language-image learning（CLIP）推荐系统论文列表 LLM 的 scaling law（最经典的两篇文章）： Scaling Laws for Neural Language Models https://arxiv.org/abs/2001.08361 最初的 scaling law 工作，openai 2020。 Training Compute-Optimal Large Language Models https://arxiv.org/abs/2203.1555 师兄推荐的 Chinchilla scaling law，deepmind 2022。其他领域的 scaling law： Scaling laws for single-agent reinforcement learning https://arxiv.org/abs/2301.13442 RL 的 scaling law，2023，arxiv 工作。 Scaling Laws for a Multi-Agent Reinforcement Learning Model https://arxiv.org/abs/2210.00849 MARL 的 scaling law，2022，ICLR 2023。 AlphaZero Neural Scaling and Zipf's Law: a Tale of Board Games and Power Laws https://arxiv.org/abs/2412.11979 2024，NeurIPS 2025。 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities https://arxiv.org/abs/2503.14858 2025，NeurIPS 2025 best paper。 Reproducible scaling laws for contrastive language-image learning https://arxiv.org/abs/2212.07143 2022，CVPR 2023。 Data Scaling Laws in Imitation Learning for Robotic Manipulation https://arxiv.org/abs/2410.18647 2024，ICLR 2025 oral。 Understanding Scaling Laws for Recommendation Models https://arxiv.org/abs/2208.08489 Meta，2022，arxiv 工作，58 个 cite。 Scaling Law for Time Series Forecasting https://openreview.net/forum?id=Cr2jEHJB9q neurips 2024，还没看。可能的负样本： Understanding Generative Recommendation with Semantic IDs from a Model-scaling View https://openreview.net/forum?id=EjfzChLkHO iclr 2026 reject Scaling Law with Learning Rate Annealing https://openreview.net/forum?id=o9YC0B6P2m iclr 2026 reject 但这个分数是 8 8 6 5，只有 5 是负分，所以感觉可能质量挺高的。故事线分析 Scaling laws for single-agent reinforcement learning 在生成式模型（如 LLM）中，scale 的是测试损失，这个测试损失随模型大小和计算量平滑下降，服从幂律（也就是两边都取 log 的话是线性的）。然而，RL 的评估指标是“平均回报（return）”，它往往是非单调、不平滑的（例如：从 5 分提升到 10 分需要掌握瞄准和闪避，但从 15 到 20 分只需简单微调策略）。

强化学习及其他领域中的scaling laws有哪些效应？

相关推荐