有哪些数学数据集如MATH、GSM8K、AIME24等常被使用?
摘要:最近在读这篇文章: 论文题目:ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning 来源:NeurIPS 2025。 arxiv:http
最近在读这篇文章:
论文题目:ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning
来源:NeurIPS 2025。
arxiv:https://arxiv.org/abs/2503.09501
GitHub:https://github.com/ziyuwan/ReMA-public
看到里面介绍数据集的一段话:
We conduct experiments on two types of tasks: mathematical reasoning and LLM-as-a-Judge. For mathematical reasoning experiments, we train models on 7.5k training samples in MATH (Hendrycks et al., 2021) and use MATH500 (Lightman et al., 2023) as the in-distribution test dataset. Additionally, we test the optimized models on out-of-distribution datasets: GSM8K (Cobbe et al., 2021), AIME24, AMC23, GaoKao2023En (Zhang et al., 2023), Minerva Math (Lewkowycz et al., 2022), and Olympiad Bench (He et al., 2024).
我们在两种类型的任务上进行了实验:数学推理和 LLM 作为裁判。在数学推理实验中,我们在 MATH(Hendrycks 等人,2021 年)上使用 7.5k 个训练样本训练模型,并使用 MATH500(Lightman 等人,2023 年)作为分布内测试数据集。此外,我们在分布外数据集上测试了优化后的模型:GSM8K(Cobbe 等人,2021 年)、AIME24、AMC23、GaoKao2023En(张等人,2023 年)、Minerva Math(Lewkowycz 等人,2022 年)和 Olympiad Bench(He 等人,2024 年)。
大意是,这个工作在做数学题的实验上,训练数据集是 MATH,分布内的测试数据集是 MATH500(这好像是一个标准做法),并且在一系列的分布外 数学题数据集上测试了模型的性能。
为了了解这些数据集 / benchmark 的信息,询问了 MiroThinker;还没仔细研究。
—— · ——
以下为 MiroThinker 的回答
下面按你给的列表,一个个介绍这些数学推理相关的数据集 / benchmark,重点放在:
题目长什么样(内容/难度)
数据格式(文件形式、字段)
通常怎么用(训练 / 测试 / 推理方式)
常见的评估指标(evaluation metrics)
会适当加一点「实战建议」,方便你直接拿来做实验。
1. MATH(Hendrycks et al., 2021)
1.1 内容与定位
规模:12,500 道题,来自数学竞赛(AMC 10/12, AIME 等)[1] nlile/hendrycks-MATH-benchmark [2] Measuring Mathematical Problem Solving With the MATH Dataset
科目:7 大类
Prealgebra
Algebra
Number Theory
Counting and Probability
Geometry
Intermediate Algebra
Precalculus
难度:每题有 1–5 的难度标签(1 最简单,5 最难)
题型:开放式主观题,不是选择题。
解答:每题配有 完整的 step-by-step 解析(LaTeX +自然语言),以及 最终答案(用 \boxed{...} 包起来)[2] Measuring Mathematical Problem Solving With the MATH Dataset。
这套数据的目标是测试「奥赛级」数学推理能力,是目前最经典的数学 reasoning benchmark 之一。
1.2 数据格式(你实际会接触到的)
在 Hugging Face 版本中,典型字段包括[1]:
problem: 字符串,题目正文(LaTeX 形式,含数学公式)。
solution: 完整的分步解答(LaTeX + 自然语言)。
answer: 最终答案(通常与 \boxed{} 里的内容一致,以便直接比对)。
subject: 七大科目之一。
level: 难度 1–5。
unique_id: 唯一编号。
文件形式一般是:
官方原始:结构化的文本 / json;
Hugging Face:parquet 或自动转的 parquet,加载后就是标准字段;
也有社区提供的 .json 或 .jsonl 版本(每行一题,字段同上)。
1.3 使用方式(训练 & 测试)
训练(如你 paper 中说的 7.5k training samples):
常见做法:
只用 problem -> answer:训练模型直接输出最终答案;
或 problem -> solution:训练模型学会输出完整 CoT;
或混合:论文中提到的「一半样本只预测答案,一半样本预测完整解答」[2]。
输入:题干(可能带 category/difficulty),有时在 prompt 中要求「在最终结果前用 \boxed{} 包起来」。
测试(evaluation):
通常只用测试集的一部分,或者整个 5k test set;
你引文中的论文:训练用 7.5k,in-distribution 测试集用的是从 MATH 中选的 500 题(MATH500)。
1.4 评估指标(metrics)
原始论文的主指标:[2] Measuring Mathematical Problem Solving With the MATH Dataset
Exact-match accuracy on final answer
从模型输出中解析出 \boxed{...} 内的内容(或者最后一行的答案);
将它和标准答案进行「规范化后的字符串匹配」:
分数:必须约分成最简;
多项式:按降幂排序,变量按字母排序;
向量/矩阵:有统一写法;
因式分解:因子顺序不做区分;
空格忽略,一些格式等价的写法视为同一个答案。
常见扩展:
按科目分 accuracy;
按难度 level 分 accuracy。
如果你自己评测:
最简单:
要求模型输出 The answer is \boxed{...}.
用脚本截取 \boxed{} 里的内容,做 exact match。
更严格可以复现论文里的规范化规则,但起步不必这么复杂。
2. MATH500(MATH-500, Lightman et al. 2023)
2.1 内容与定位
本质:从 MATH 测试集中选出的 500 题子集 [3] HuggingFaceH4/MATH-500 [4] MATH-500 Benchmark Leaderboard。
用途:OpenAI「Let’s Verify Step by Step」等工作中,专门用来评测 process supervision / verifier / reasoning 优化等 [3] HuggingFaceH4/MATH-500 [4] MATH-500 Benchmark Leaderboard [5] Let's Verify Step by Step。
难度:仍然是竞赛级,多科目、分难度。
你看到的论文将它作为 in-distribution test set,因为它与训练数据 MATH 同分布,只是固定了一小部分作为标准对比。
2.2 数据格式
Hugging Face HuggingFaceH4/MATH-500 的字段基本与 MATH 一致[3]:
problem
solution
answer
subject
level
unique_id
文件形式:
test.jsonl(最常用):每行一个 JSON 对象;
也自动提供 parquet。
2.3 使用方式
通常仅作为评测集:不参与训练;
你可以直接:
读取 test.jsonl;
对每个 problem 做推理,让模型输出带 \boxed{} 的答案;
比对 answer 字段,算 accuracy。
评估指标同 MATH:final answer exact-match accuracy。
3. GSM8K(Cobbe et al., 2021)
3.1 内容与定位
全称:Grade School Math 8K。
规模:8.5k 小学/初中阶段的数学应用题 [6] Training Verifiers to Solve Math Word Problems (GSM8K):
7.5k 训练题;
1k 测试题。
内容:英文自然语言的「文字应用题」,如:
John has 3 apples, buys 2 more, how many now?
难度:每题需要 2–8 步推理,强调「multi-step reasoning」 [6] Training Verifiers to Solve Math Word Problems (GSM8K)。
相比 MATH,GSM8K 更偏「日常文字推理」,逻辑链不短但数学本身不难。
3.2 数据格式
在 GitHub / Hugging Face 中数据一般是 JSON 或通过脚本加载,[6] Training Verifiers to Solve Math Word Problems (GSM8K) [7] openai/gsm8k · Datasets at Hugging Face 常见字段:
question: 题目自然语言;
answer: 一段「带推理过程的文本 + 最后一行是 #### 最终数字」的形式。例如:To find the total, we add 3 and 2 to get 5. #### 5
文件组织:
通常有 train 和 test 两个 split(在 Hugging Face datasets API 中定义)[7];
有人会导出 .jsonl 做 fine-tune。
3.3 使用方式
训练:
常见做法:
输入:question
输出:完整 CoT(包含中间推理 + 以 #### number 结尾的答案)。
对一些 RL / Verifier 工作,会额外生成多条不同的解答路径,用来训练 reward model 或 verifier。
测试:
对 test split 的每个问题,让模型输出一个解答;
用脚本抓取末尾 #### 之后的数字作为「预测答案」。
3.4 评估指标
主指标:final answer exact-match accuracy(比对数字是否一致);
有的工作也会看:
majority voting / self-consistency 后的 accuracy;
少数会做「步骤级别」的正确性分析,但标准 GSM8K benchmark 主要是答案准确率。
4. AIME24
AIME 2024(AIME24) 相关的数学 benchmark,目前社区比较统一用法是:从 2024 AIME I & II 中选 15 或 30 题构建评测集 [8] AIME 2024 Dataset Cards & Benchmarks。
4.1 内容与定位
来源:美国高中数学竞赛 American Invitational Mathematics Examination 2024(AIME 2024)。
特点:
每题答案是 000–999 之间的整数;
题目难度显著高于普通高中考试;
强调组合、数论、代数等竞赛型推理。
数据量:
最小版本:30 题(AIME I + II);
有些工作只取其中 15 题作为公开 benchmark [8] AIME 2024 Dataset Cards & Benchmarks。
4.2 数据格式
以 Hugging Face Maxwell-Jia/AIME_2024 为例 [9] Maxwell-Jia/AIME_2024:
文件格式:JSONL(每行一个 JSON 对象)。
字段示例 [9] Maxwell-Jia/AIME_2024:{ "ID": "2024-I-1", "Problem": "题目正文 ...", "Solution": "(可选,有的版本含解析)", "Answer": 123 }
有些 eval repo(如 Qwen2.5-Math)提供的是 test.jsonl,字段类似 [10] Qwen2.5-Math AIME24 test.jsonl。
4.3 使用方式
典型评测协议:
Prompt 中给出题目正文,不提示是「三位数答案」,只说「Give the final numeric answer.」;
模型输出最终答案;
将输出解析成整数(有时需从文本中抽取最后一个整数,比如 The answer is 123.);
与 Answer 字段比对是否完全相等。
训练:
一般不拿这么小的数据训练,只用作 eval;
有些 RL 工作会设计「AIME-Hard」版本,用来训练 reward model 或进行 reward shaping。
4.4 评估指标
Accuracy:答对题目的比例;
因为题量小,经常会给出「原始分数 / 总题数」,比如 14/30 = 46.7%。
5. AMC23
「AMC23」很可能是指 American Mathematics Competition 2023 的一个子集(如 AMC 10/12)构成的 benchmark。一些数学 reasoning 工作会把「AMC 2023(40 题左右)」作为一个独立 eval set。
5.1 内容与定位
来源:美国数学竞赛 AMC(American Mathematics Competitions),如 2023 AMC 10/12。
题型:单选题(多为 5 选 1),但在 LLM benchmark 中,常常把它改造成「开放式 + 自动判分」:
方式 1:让模型直接输出选项字母(A–E);
方式 2:让模型输出最后的数值,然后映射到选项。
难度:比 AIME 稍低,但比普通高中题高。
5.2 数据格式
以 Hugging Face 某些 amc23 数据集为例 [11] zwhe99/amc23 · Datasets at Hugging Face:
文件格式多为 Hugging Face datasets(内部转为 Parquet),也常见 .json 导出;
典型字段:
problem: 题干(含选项 A–E 的文本);
answer: 正确选项或数值;
有时会有 solution 字段。
黄皮书或 Omni-MATH 等更大 benchmark 也把 AMC2023 集成进去,统一用 jsonl(每行为一个题目)[12] OpenMathInstruct-2 Dataset [13] DeepScaleR-Preview-Dataset。
5.3 使用方式与评估指标
使用方式:
训练时可以强制输出 Answer: (A) 这类格式;
评估时从输出中抽取第一个合法选项(A/B/C/D/E),与标准答案比;
指标:
选择题:accuracy (选项是否匹配);
若转为开放式数值题,仍是 final answer exact match。
6. GaoKao2023En(Gaokao2023-Math-En)
6.1 内容与定位
来源:2023 年中国高考数学试题;
语言:专业翻译成英文 [14] MARIO-Math-Reasoning/Gaokao2023-Math-En;
功能:测试 LLM 在「非英文原生教育体系」的数学推理能力,且题目包含填空题、大题等多种形式。
MARIO 论文中称其为 GaoKao2023-Math-En,纳入多国考试混合集合同评估 [14] MARIO-Math-Reasoning/Gaokao2023-Math-En。
6.2 数据格式
以 MARIO-Math-Reasoning/Gaokao2023-Math-En 为例 [1] nlile/hendrycks-MATH-benchmark [14] MARIO-Math-Reasoning/Gaokao2023-Math-En:
样本数:385 道题(多套卷 / 多类型题合并);
Hugging Face datasets 格式,通常可以导出 .json 或 .jsonl;
字段:
通常至少有 question / problem,answer;
部分增强版本添加 solution(解析)和难度等元信息 [15] Mobiusi/Gaokao2023-Math-En-Improved;
MARIO 论文中说明评测使用 jsonl 文件 作为问题输入:
一行一个题目,字段包含题干、答案等 [16] MARIO: MAth Reasoning with code Interpreter Output。
6.3 使用方式和指标
使用方式:
作为 out-of-distribution eval set:因为训练通常没有高考原题;
让模型用英文 CoT 解题,最终输出一个数值或表达式;
指标:
仍然是 final answer accuracy;
某些复杂题(证明题)可能需要人工或额外 LLM 判分,但大多数是选择 / 填空 / 计算类,可以 exact match。
7. Minerva Math(Lewkowycz et al., 2022)
7.1 内容与定位
Minerva 是 Google 提出的一个「专门训练在数学/科学技术内容上的大语言模型」[17] Solving Quantitative Reasoning Problems with Language Models (Minerva) [18] Minerva: Solving Quantitative Reasoning Problems with Language Models;
为了评估 Minerva,他们整理了一组数学基准(人们常把这组叫 Minerva Math benchmark),包括:
MATH;
GSM8K;
其它大学水平的数学 / 物理题集等。
在后续很多论文中,「Minerva Math」通常指他们发布的一个整合过的数学 benchmark 子集,作为统一评测集(一些开源实现叫 minervamath 数据集)[19] math-ai/minervamath · Datasets at Hugging Face。
7.2 数据格式
以 math-ai/minervamath 为例 [19] math-ai/minervamath · Datasets at Hugging Face(通用情况):
格式:Hugging Face datasets,内部通常是 json / parquet;
字段大致包括:
problem: 数学问题描述;
answer: 标准答案(多为数值或表达式);
有时会有 solution 或 source 等。
Minerva 本身使用的是 LaTeX 风格题目和解答,与 MATH 类似。
7.3 使用方式与评估指标
使用方式:
常作为一个「混合数学 benchmark」:与 MATH、GSM8K 等一起评测;
对每道题同样让模型生成 CoT,最后给出数值/表达式。
指标:
仍以 final answer exact match accuracy 为主;
某些子集会区分「选择题 / 开放题」分别统计。
8. Olympiad Bench(OlympiadBench, He et al., 2024)
8.1 内容与定位
目标:构造一个 「奥赛级 + 多学科 + 多模态」的挑战性 benchmark,推动 AGI 发展 [20] OpenBMB/OlympiadBench - GitHub [21] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems。
学科:数学、物理、化学、生物、信息竞赛题等,双语(中英),含文本 + 图片 / 图表等多模态元素 [21] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems。
你关心的部分是 OlympiadBench-Math:
包含约 675 道奥赛级数学问题,很多是证明题、开放式问答题 [22] Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving;
难度远高于 MATH 和一般高中题。
8.2 数据格式
GitHub OpenBMB/OlympiadBench + Hugging Face 版本 [20] OpenBMB/OlympiadBench - GitHub [23] Hothan/OlympiadBench · Datasets at Hugging Face:
存储形式多为 JSON / JSONL;
核心字段(数学子集通常类似):
problem: 题目描述(可能含图片链接,或 LaTeX);
answer: 参考答案(对开放式题通常是较长文本);
solution / analysis: 标准解析;
subject:如 math, physics 等;
language:zh / en;
可能还有 difficulty, source, problem_type(选择题 / 证明题等)。
对于「开放式问答和证明题」,他们设计了一套标准化答案格式和自动评分方案 [20] OpenBMB/OlympiadBench - GitHub 。
8.3 使用方式与评估指标
与前面纯数值题很不一样:
题目很多是:
证明题;
求解并解释理由;
需要多步逻辑和自然语言表述。
评估方式:
论文中采用了一种「自动化评分 + 人工校验」方案 [20] OpenBMB/OlympiadBench - GitHub :
对于有标准数值答案的子题,仍使用 final answer exact match;
对于开放式/证明题:
先用 LLM 或规则检查是否包含关键结论、关键步骤;
有时给出 0–1 或 0–N 的「部分得分」;
公开实现中,为了方便复现,通常采用:
对选择题 / 填空题:accuracy;
对证明题:用一个Judger LLM 给出 0/1(正确/错误),再统计 accuracy 或平均得分。
因为你提到的论文同时做「LLM-as-a-Judge」,OlympiadBench 这种需要 judge 评分的开放题非常适合用来测试「评判模型」性能。
9. 怎么在实验中实际使用这些 benchmark?
如果你刚入门,可以按「难度 + 工程复杂度」从低到高循序渐进:
入门:GSM8K
任务清晰:自然语言文字题 → 最终数字;
工程成本低:只要写一个脚本提取 #### 后的数字,算 accuracy;
适合作为你第一个 end-to-end 评测管线。
进阶:MATH + MATH500
学习如何:
处理 LaTeX;
强制模型输出 \boxed{};
写更复杂的「normalize + exact match」脚本;
训练:可以用 7.5k 样本微调一个小模型;
评测:在 MATH500 上报 overall accuracy + 按科目/难度分布。
OOD 测试:AIME24, AMC23, GaoKao2023En, Minerva Math
把在 MATH 上训练/调优的模型拿来直接测试这些数据集:
不调整数据分布,看 out-of-distribution generalization;
指标:统一用 final answer accuracy,更方便横向比较。
最高难度:OlympiadBench-Math
若你要研究「LLM-as-a-Judge」或「步骤级打分」:
可选定其中一部分证明题;
让 candidate-model 给出解答,再用 judge-model 评判正确性;
可以设计:
人类评分 vs. judge-LLM 评分的一致性(相关系数、Kappa 等);
不同 judge 模型在 OlympiadBench 上的一致性和稳定性。
10. 各数据集关键信息速查表
名称
典型规模
难度 & 场景
常见格式 / 字段
主要评估指标
MATH
12.5k(7.5k 训练 + 5k 测试)
竞赛级(AMC/AIME 等),7 科目,难度 1–5
problem, solution, answer, subject, level, unique_id(LaTeX)
final answer exact-match accuracy(带规范化)[2]
MATH500
500 题
从 MATH 测试集中选的子集,用作标准 eval
同 MATH,test.jsonl
accuracy on final answer
GSM8K
8.5k(7.5k train + 1k test)
小学/初中应用题,多步推理
question, answer(含 CoT 和 #### number)
final numeric answer accuracy [6]
AIME24 / AIME241
~15–30 题/集合
美国竞赛 AIME 2024,三位整数答案,难
ID, Problem, Answer(int),部分含 Solution
数值 exact-match accuracy
AMC23 / AMC232
~40 题
美国竞赛 AMC 2023,多为选择题
problem, answer, optional solution
选项 / 数值 accuracy
GaoKao2023En
~385 题
2023 中国高考数学,翻译成英文,混合题型
question/problem, answer, optional solution
final answer accuracy;部分复杂题需 LLM judge
Minerva Math
数量依子集而定,通常几百到几千
多来源的数学题,用于评估 Minerva 等
problem, answer, optional solution, source
final answer accuracy
OlympiadBench-Math
约 675 题
各类奥赛题,含证明题,多模态
problem, answer, solution, subject, language 等
数值题:accuracy;证明题:LLM judge / 自动打分
如果你接下来想做一个从 0 到 1 的数学 reasoning 实验 pipeline,推荐顺序:
写一个简单的 evaluation 脚本,对 GSM8K 做 zero-shot / few-shot CoT,输出 accuracy;
扩展脚本支持 \boxed{} 解析和 LaTeX,接入 MATH500;
在 MATH 上用 7.5k 训练一个小模型或用指令微调(SFT),再在 MATH500 / GSM8K / AIME24 / GaoKao2023En 做 zero-shot transfer;
如果你对「LLM-as-a-Judge」感兴趣,再把 OlympiadBench-Math 里的证明题接上,设计 judge 模型的评分实验。
这样基本就把你引用那篇论文用到的所有 benchmark 跑通了。
References
[1] nlile/hendrycks-MATH-benchmark. https://huggingface.co/datasets/nlile/hendrycks-MATH-benchmark
[2] Measuring Mathematical Problem Solving With the MATH Dataset. https://arxiv.org/pdf/2103.03874.pdf
[3] HuggingFaceH4/MATH-500. https://huggingface.co/datasets/HuggingFaceH4/MATH-500
[4] MATH-500 Benchmark Leaderboard. https://artificialanalysis.ai/evaluations/math-500
[5] Let's Verify Step by Step. https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf
[6] Training Verifiers to Solve Math Word Problems (GSM8K). https://arxiv.org/abs/2110.14168
[7] openai/gsm8k · Datasets at Hugging Face. https://huggingface.co/datasets/openai/gsm8k
[8] AIME 2024 Dataset Cards & Benchmarks. https://huggingface.co/datasets/Maxwell-Jia/AIME_2024
[9] Maxwell-Jia/AIME_2024. https://huggingface.co/datasets/Maxwell-Jia/AIME_2024
[10] Qwen2.5-Math AIME24 test.jsonl. https://github.com/QwenLM/Qwen2.5-Math/blob/main/evaluation/data/aime24/test.jsonl
[11] zwhe99/amc23 · Datasets at Hugging Face. https://huggingface.co/datasets/zwhe99/amc23
[12] OpenMathInstruct-2 Dataset. https://huggingface.co/datasets/nvidia/OpenMathInstruct-2
[13] DeepScaleR-Preview-Dataset. https://modelscope.cn/datasets/agentica-org/DeepScaleR-Preview-Dataset
[14] MARIO-Math-Reasoning/Gaokao2023-Math-En. https://huggingface.co/datasets/MARIO-Math-Reasoning/Gaokao2023-Math-En
[15] Mobiusi/Gaokao2023-Math-En-Improved. https://huggingface.co/datasets/Mobiusi/Gaokao2023-Math-En-Improved
[16] MARIO: MAth Reasoning with code Interpreter Output. https://openreview.net/pdf/d1120bb65ec677a3f29d21512e96ac3ec1281657.pdf
[17] Solving Quantitative Reasoning Problems with Language Models (Minerva). https://arxiv.org/abs/2206.14858
[18] Minerva: Solving Quantitative Reasoning Problems with Language Models. https://research.google/blog/minerva-solving-quantitative-reasoning-problems-with-language-models/
[19] math-ai/minervamath · Datasets at Hugging Face. https://huggingface.co/datasets/math-ai/minervamath
[20] OpenBMB/OlympiadBench - GitHub. https://github.com/OpenBMB/OlympiadBench
[21] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems. https://arxiv.org/abs/2402.14008
[22] Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving. https://proceedings.neurips.cc/paper_files/paper/2024/file/0ef1afa0daa888d695dcd5e9513bafa3-Paper-Conference.pdf
[23] Hothan/OlympiadBench · Datasets at Hugging Face. https://huggingface.co/datasets/Hothan/OlympiadBench
