有哪些数学数据集如MATH、GSM8K、AIME24等常被使用?
摘要:最近在读这篇文章: 论文题目:ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning 来源:NeurIPS 2025。 arxiv:http
最近在读这篇文章:
论文题目:ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning
来源:NeurIPS 2025。
arxiv:https://arxiv.org/abs/2503.09501
GitHub:https://github.com/ziyuwan/ReMA-public
看到里面介绍数据集的一段话:
We conduct experiments on two types of tasks: mathematical reasoning and LLM-as-a-Judge. For mathematical reasoning experiments, we train models on 7.5k training samples in MATH (Hendrycks et al., 2021) and use MATH500 (Lightman et al., 2023) as the in-distribution test dataset. Additionally, we test the optimized models on out-of-distribution datasets: GSM8K (Cobbe et al., 2021), AIME24, AMC23, GaoKao2023En (Zhang et al., 2023), Minerva Math (Lewkowycz et al., 2022), and Olympiad Bench (He et al., 2024).
我们在两种类型的任务上进行了实验:数学推理和 LLM 作为裁判。在数学推理实验中,我们在 MATH(Hendrycks 等人,2021 年)上使用 7.5k 个训练样本训练模型,并使用 MATH500(Lightman 等人,2023 年)作为分布内测试数据集。此外,我们在分布外数据集上测试了优化后的模型:GSM8K(Cobbe 等人,2021 年)、AIME24、AMC23、GaoKao2023En(张等人,2023 年)、Minerva Math(Lewkowycz 等人,2022 年)和 Olympiad Bench(He 等人,2024 年)。
大意是,这个工作在做数学题的实验上,训练数据集是 MATH,分布内的测试数据集是 MATH500(这好像是一个标准做法),并且在一系列的分布外 数学题数据集上测试了模型的性能。
为了了解这些数据集 / benchmark 的信息,询问了 MiroThinker;还没仔细研究。
—— · ——
以下为 MiroThinker 的回答
下面按你给的列表,一个个介绍这些数学推理相关的数据集 / benchmark,重点放在:
题目长什么样(内容/难度)
数据格式(文件形式、字段)
通常怎么用(训练 / 测试 / 推理方式)
常见的评估指标(evaluation metrics)
会适当加一点「实战建议」,方便你直接拿来做实验。
1. MATH(Hendrycks et al., 2021)
1.1 内容与定位
规模:12,500 道题,来自数学竞赛(AMC 10/12, AIME 等)[1] nlile/hendrycks-MATH-benchmark [2] Measuring Mathematical Problem Solving With the MATH Dataset
科目:7 大类
Prealgebra
Algebra
Number Theory
Counting and Probability
Geometry
Intermediate Algebra
Precalculus
难度:每题有 1–5 的难度标签(1 最简单,5 最难)
题型:开放式主观题,不是选择题。
解答:每题配有 完整的 step-by-step 解析(LaTeX +自然语言),以及 最终答案(用 \boxed{...} 包起来)[2] Measuring Mathematical Problem Solving With the MATH Dataset。
这套数据的目标是测试「奥赛级」数学推理能力,是目前最经典的数学 reasoning benchmark 之一。
1.2 数据格式(你实际会接触到的)
在 Hugging Face 版本中,典型字段包括[1]:
problem: 字符串,题目正文(LaTeX 形式,含数学公式)。
solution: 完整的分步解答(LaTeX + 自然语言)。
