强化学习及其他领域中的scaling laws有哪些效应?

摘要:目录论文列表故事线分析Scaling laws for single-agent reinforcement learningalpha zero 式的 MARLrobotics 的 imitation learningGCRLcontra
目录论文列表故事线分析Scaling laws for single-agent reinforcement learningalpha zero 式的 MARLrobotics 的 imitation learningGCRLcontrastive language-image learning(CLIP)推荐系统 论文列表 LLM 的 scaling law(最经典的两篇文章): Scaling Laws for Neural Language Models https://arxiv.org/abs/2001.08361 最初的 scaling law 工作,openai 2020。 Training Compute-Optimal Large Language Models https://arxiv.org/abs/2203.1555 师兄推荐的 Chinchilla scaling law,deepmind 2022。 其他领域的 scaling law: Scaling laws for single-agent reinforcement learning https://arxiv.org/abs/2301.13442 RL 的 scaling law,2023,arxiv 工作。 Scaling Laws for a Multi-Agent Reinforcement Learning Model https://arxiv.org/abs/2210.00849 MARL 的 scaling law,2022,ICLR 2023。 AlphaZero Neural Scaling and Zipf's Law: a Tale of Board Games and Power Laws https://arxiv.org/abs/2412.11979 2024,NeurIPS 2025。 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities https://arxiv.org/abs/2503.14858 2025,NeurIPS 2025 best paper。 Reproducible scaling laws for contrastive language-image learning https://arxiv.org/abs/2212.07143 2022,CVPR 2023。 Data Scaling Laws in Imitation Learning for Robotic Manipulation https://arxiv.org/abs/2410.18647 2024,ICLR 2025 oral。 Understanding Scaling Laws for Recommendation Models https://arxiv.org/abs/2208.08489 Meta,2022,arxiv 工作,58 个 cite。 Scaling Law for Time Series Forecasting https://openreview.net/forum?id=Cr2jEHJB9q neurips 2024,还没看。 可能的负样本: Understanding Generative Recommendation with Semantic IDs from a Model-scaling View https://openreview.net/forum?id=EjfzChLkHO iclr 2026 reject Scaling Law with Learning Rate Annealing https://openreview.net/forum?id=o9YC0B6P2m iclr 2026 reject 但这个分数是 8 8 6 5,只有 5 是负分,所以感觉可能质量挺高的。 故事线分析 Scaling laws for single-agent reinforcement learning 在生成式模型(如 LLM)中,scale 的是测试损失,这个测试损失随模型大小和计算量平滑下降,服从幂律(也就是两边都取 log 的话是线性的)。 然而,RL 的评估指标是“平均回报(return)”,它往往是非单调、不平滑的(例如:从 5 分提升到 10 分需要掌握瞄准和闪避,但从 15 到 20 分只需简单微调策略)。
阅读全文