强化学习及其他领域中的scaling laws有哪些效应?
摘要:目录论文列表故事线分析Scaling laws for single-agent reinforcement learningalpha zero 式的 MARLrobotics 的 imitation learningGCRLcontra
目录论文列表故事线分析Scaling laws for single-agent reinforcement learningalpha zero 式的 MARLrobotics 的 imitation learningGCRLcontrastive language-image learning(CLIP)推荐系统
论文列表
LLM 的 scaling law(最经典的两篇文章):
Scaling Laws for Neural Language Models
https://arxiv.org/abs/2001.08361
最初的 scaling law 工作,openai 2020。
Training Compute-Optimal Large Language Models
https://arxiv.org/abs/2203.1555
师兄推荐的 Chinchilla scaling law,deepmind 2022。
其他领域的 scaling law:
Scaling laws for single-agent reinforcement learning
https://arxiv.org/abs/2301.13442
RL 的 scaling law,2023,arxiv 工作。
Scaling Laws for a Multi-Agent Reinforcement Learning Model
https://arxiv.org/abs/2210.00849
MARL 的 scaling law,2022,ICLR 2023。
AlphaZero Neural Scaling and Zipf's Law: a Tale of Board Games and Power Laws
https://arxiv.org/abs/2412.11979
2024,NeurIPS 2025。
1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
https://arxiv.org/abs/2503.14858
2025,NeurIPS 2025 best paper。
Reproducible scaling laws for contrastive language-image learning
https://arxiv.org/abs/2212.07143
2022,CVPR 2023。
Data Scaling Laws in Imitation Learning for Robotic Manipulation
https://arxiv.org/abs/2410.18647
2024,ICLR 2025 oral。
Understanding Scaling Laws for Recommendation Models
https://arxiv.org/abs/2208.08489
Meta,2022,arxiv 工作,58 个 cite。
Scaling Law for Time Series Forecasting
https://openreview.net/forum?id=Cr2jEHJB9q
neurips 2024,还没看。
可能的负样本:
Understanding Generative Recommendation with Semantic IDs from a Model-scaling View
https://openreview.net/forum?id=EjfzChLkHO
iclr 2026 reject
Scaling Law with Learning Rate Annealing
https://openreview.net/forum?id=o9YC0B6P2m
iclr 2026 reject
但这个分数是 8 8 6 5,只有 5 是负分,所以感觉可能质量挺高的。
故事线分析
Scaling laws for single-agent reinforcement learning
在生成式模型(如 LLM)中,scale 的是测试损失,这个测试损失随模型大小和计算量平滑下降,服从幂律(也就是两边都取 log 的话是线性的)。
然而,RL 的评估指标是“平均回报(return)”,它往往是非单调、不平滑的(例如:从 5 分提升到 10 分需要掌握瞄准和闪避,但从 15 到 20 分只需简单微调策略)。
