有哪些数学数据集如MATH、GSM8K、AIME24等常被使用？

摘要：最近在读这篇文章：论文题目：ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning 来源：NeurIPS 2025。 arxiv：http

最近在读这篇文章：论文题目：ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning 来源：NeurIPS 2025。 arxiv：https://arxiv.org/abs/2503.09501 GitHub：https://github.com/ziyuwan/ReMA-public 看到里面介绍数据集的一段话： We conduct experiments on two types of tasks: mathematical reasoning and LLM-as-a-Judge. For mathematical reasoning experiments, we train models on 7.5k training samples in MATH (Hendrycks et al., 2021) and use MATH500 (Lightman et al., 2023) as the in-distribution test dataset. Additionally, we test the optimized models on out-of-distribution datasets: GSM8K (Cobbe et al., 2021), AIME24, AMC23, GaoKao2023En (Zhang et al., 2023), Minerva Math (Lewkowycz et al., 2022), and Olympiad Bench (He et al., 2024). 我们在两种类型的任务上进行了实验：数学推理和 LLM 作为裁判。在数学推理实验中，我们在 MATH（Hendrycks 等人，2021 年）上使用 7.5k 个训练样本训练模型，并使用 MATH500（Lightman 等人，2023 年）作为分布内测试数据集。此外，我们在分布外数据集上测试了优化后的模型：GSM8K（Cobbe 等人，2021 年）、AIME24、AMC23、GaoKao2023En（张等人，2023 年）、Minerva Math（Lewkowycz 等人，2022 年）和 Olympiad Bench（He 等人，2024 年）。大意是，这个工作在做数学题的实验上，训练数据集是 MATH，分布内的测试数据集是 MATH500（这好像是一个标准做法），并且在一系列的分布外数学题数据集上测试了模型的性能。为了了解这些数据集 / benchmark 的信息，询问了 MiroThinker；还没仔细研究。 —— · —— 以下为 MiroThinker 的回答下面按你给的列表，一个个介绍这些数学推理相关的数据集 / benchmark，重点放在：题目长什么样（内容/难度）数据格式（文件形式、字段）通常怎么用（训练 / 测试 / 推理方式）常见的评估指标（evaluation metrics）会适当加一点「实战建议」，方便你直接拿来做实验。 1. MATH（Hendrycks et al., 2021） 1.1 内容与定位规模：12,500 道题，来自数学竞赛（AMC 10/12, AIME 等）[1] nlile/hendrycks-MATH-benchmark [2] Measuring Mathematical Problem Solving With the MATH Dataset 科目：7 大类 Prealgebra Algebra Number Theory Counting and Probability Geometry Intermediate Algebra Precalculus 难度：每题有 1–5 的难度标签（1 最简单，5 最难）题型：开放式主观题，不是选择题。解答：每题配有完整的 step-by-step 解析（LaTeX +自然语言），以及最终答案（用 \boxed{...} 包起来）[2] Measuring Mathematical Problem Solving With the MATH Dataset。这套数据的目标是测试「奥赛级」数学推理能力，是目前最经典的数学 reasoning benchmark 之一。 1.2 数据格式（你实际会接触到的）在 Hugging Face 版本中，典型字段包括[1]： problem: 字符串，题目正文（LaTeX 形式，含数学公式）。 solution: 完整的分步解答（LaTeX + 自然语言）。

有哪些数学数据集如MATH、GSM8K、AIME24等常被使用？

相关推荐