有哪些数学数据集如MATH、GSM8K、AIME24等常被使用?

摘要:最近在读这篇文章: 论文题目:ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning 来源:NeurIPS 2025。 arxiv:http
最近在读这篇文章: 论文题目:ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning 来源:NeurIPS 2025。 arxiv:https://arxiv.org/abs/2503.09501 GitHub:https://github.com/ziyuwan/ReMA-public 看到里面介绍数据集的一段话: We conduct experiments on two types of tasks: mathematical reasoning and LLM-as-a-Judge. For mathematical reasoning experiments, we train models on 7.5k training samples in MATH (Hendrycks et al., 2021) and use MATH500 (Lightman et al., 2023) as the in-distribution test dataset. Additionally, we test the optimized models on out-of-distribution datasets: GSM8K (Cobbe et al., 2021), AIME24, AMC23, GaoKao2023En (Zhang et al., 2023), Minerva Math (Lewkowycz et al., 2022), and Olympiad Bench (He et al., 2024). 我们在两种类型的任务上进行了实验:数学推理和 LLM 作为裁判。在数学推理实验中,我们在 MATH(Hendrycks 等人,2021 年)上使用 7.5k 个训练样本训练模型,并使用 MATH500(Lightman 等人,2023 年)作为分布内测试数据集。此外,我们在分布外数据集上测试了优化后的模型:GSM8K(Cobbe 等人,2021 年)、AIME24、AMC23、GaoKao2023En(张等人,2023 年)、Minerva Math(Lewkowycz 等人,2022 年)和 Olympiad Bench(He 等人,2024 年)。 大意是,这个工作在做数学题的实验上,训练数据集是 MATH,分布内的测试数据集是 MATH500(这好像是一个标准做法),并且在一系列的分布外 数学题数据集上测试了模型的性能。 为了了解这些数据集 / benchmark 的信息,询问了 MiroThinker;还没仔细研究。 —— · —— 以下为 MiroThinker 的回答 下面按你给的列表,一个个介绍这些数学推理相关的数据集 / benchmark,重点放在: 题目长什么样(内容/难度) 数据格式(文件形式、字段) 通常怎么用(训练 / 测试 / 推理方式) 常见的评估指标(evaluation metrics) 会适当加一点「实战建议」,方便你直接拿来做实验。 1. MATH(Hendrycks et al., 2021) 1.1 内容与定位 规模:12,500 道题,来自数学竞赛(AMC 10/12, AIME 等)[1] nlile/hendrycks-MATH-benchmark [2] Measuring Mathematical Problem Solving With the MATH Dataset 科目:7 大类 Prealgebra Algebra Number Theory Counting and Probability Geometry Intermediate Algebra Precalculus 难度:每题有 1–5 的难度标签(1 最简单,5 最难) 题型:开放式主观题,不是选择题。 解答:每题配有 完整的 step-by-step 解析(LaTeX +自然语言),以及 最终答案(用 \boxed{...} 包起来)[2] Measuring Mathematical Problem Solving With the MATH Dataset。 这套数据的目标是测试「奥赛级」数学推理能力,是目前最经典的数学 reasoning benchmark 之一。 1.2 数据格式(你实际会接触到的) 在 Hugging Face 版本中,典型字段包括[1]: problem: 字符串,题目正文(LaTeX 形式,含数学公式)。 solution: 完整的分步解答(LaTeX + 自然语言)。 answer: 最终答案(通常与 \boxed{} 里的内容一致,以便直接比对)。 subject: 七大科目之一。 level: 难度 1–5。 unique_id: 唯一编号。 文件形式一般是: 官方原始:结构化的文本 / json; Hugging Face:parquet 或自动转的 parquet,加载后就是标准字段; 也有社区提供的 .json 或 .jsonl 版本(每行一题,字段同上)。 1.3 使用方式(训练 & 测试) 训练(如你 paper 中说的 7.5k training samples): 常见做法: 只用 problem -> answer:训练模型直接输出最终答案; 或 problem -> solution:训练模型学会输出完整 CoT; 或混合:论文中提到的「一半样本只预测答案,一半样本预测完整解答」[2]。 输入:题干(可能带 category/difficulty),有时在 prompt 中要求「在最终结果前用 \boxed{} 包起来」。 测试(evaluation): 通常只用测试集的一部分,或者整个 5k test set; 你引文中的论文:训练用 7.5k,in-distribution 测试集用的是从 MATH 中选的 500 题(MATH500)。 1.4 评估指标(metrics) 原始论文的主指标:[2] Measuring Mathematical Problem Solving With the MATH Dataset Exact-match accuracy on final answer 从模型输出中解析出 \boxed{...} 内的内容(或者最后一行的答案); 将它和标准答案进行「规范化后的字符串匹配」: 分数:必须约分成最简; 多项式:按降幂排序,变量按字母排序; 向量/矩阵:有统一写法; 因式分解:因子顺序不做区分; 空格忽略,一些格式等价的写法视为同一个答案。 常见扩展: 按科目分 accuracy; 按难度 level 分 accuracy。 如果你自己评测: 最简单: 要求模型输出 The answer is \boxed{...}. 用脚本截取 \boxed{} 里的内容,做 exact match。 更严格可以复现论文里的规范化规则,但起步不必这么复杂。 2. MATH500(MATH-500, Lightman et al. 2023) 2.1 内容与定位 本质:从 MATH 测试集中选出的 500 题子集 [3] HuggingFaceH4/MATH-500 [4] MATH-500 Benchmark Leaderboard。 用途:OpenAI「Let’s Verify Step by Step」等工作中,专门用来评测 process supervision / verifier / reasoning 优化等 [3] HuggingFaceH4/MATH-500 [4] MATH-500 Benchmark Leaderboard [5] Let's Verify Step by Step。 难度:仍然是竞赛级,多科目、分难度。 你看到的论文将它作为 in-distribution test set,因为它与训练数据 MATH 同分布,只是固定了一小部分作为标准对比。 2.2 数据格式 Hugging Face HuggingFaceH4/MATH-500 的字段基本与 MATH 一致[3]: problem solution answer subject level unique_id 文件形式: test.jsonl(最常用):每行一个 JSON 对象; 也自动提供 parquet。 2.3 使用方式 通常仅作为评测集:不参与训练; 你可以直接: 读取 test.jsonl; 对每个 problem 做推理,让模型输出带 \boxed{} 的答案; 比对 answer 字段,算 accuracy。 评估指标同 MATH:final answer exact-match accuracy。 3. GSM8K(Cobbe et al., 2021) 3.1 内容与定位 全称:Grade School Math 8K。 规模:8.5k 小学/初中阶段的数学应用题 [6] Training Verifiers to Solve Math Word Problems (GSM8K): 7.5k 训练题; 1k 测试题。 内容:英文自然语言的「文字应用题」,如: John has 3 apples, buys 2 more, how many now? 难度:每题需要 2–8 步推理,强调「multi-step reasoning」 [6] Training Verifiers to Solve Math Word Problems (GSM8K)。 相比 MATH,GSM8K 更偏「日常文字推理」,逻辑链不短但数学本身不难。 3.2 数据格式 在 GitHub / Hugging Face 中数据一般是 JSON 或通过脚本加载,[6] Training Verifiers to Solve Math Word Problems (GSM8K) [7] openai/gsm8k · Datasets at Hugging Face 常见字段: question: 题目自然语言; answer: 一段「带推理过程的文本 + 最后一行是 #### 最终数字」的形式。例如:To find the total, we add 3 and 2 to get 5. #### 5 文件组织: 通常有 train 和 test 两个 split(在 Hugging Face datasets API 中定义)[7]; 有人会导出 .jsonl 做 fine-tune。 3.3 使用方式 训练: 常见做法: 输入:question 输出:完整 CoT(包含中间推理 + 以 #### number 结尾的答案)。 对一些 RL / Verifier 工作,会额外生成多条不同的解答路径,用来训练 reward model 或 verifier。 测试: 对 test split 的每个问题,让模型输出一个解答; 用脚本抓取末尾 #### 之后的数字作为「预测答案」。 3.4 评估指标 主指标:final answer exact-match accuracy(比对数字是否一致); 有的工作也会看: majority voting / self-consistency 后的 accuracy; 少数会做「步骤级别」的正确性分析,但标准 GSM8K benchmark 主要是答案准确率。 4. AIME24 AIME 2024(AIME24) 相关的数学 benchmark,目前社区比较统一用法是:从 2024 AIME I & II 中选 15 或 30 题构建评测集 [8] AIME 2024 Dataset Cards & Benchmarks。 4.1 内容与定位 来源:美国高中数学竞赛 American Invitational Mathematics Examination 2024(AIME 2024)。 特点: 每题答案是 000–999 之间的整数; 题目难度显著高于普通高中考试; 强调组合、数论、代数等竞赛型推理。 数据量: 最小版本:30 题(AIME I + II); 有些工作只取其中 15 题作为公开 benchmark [8] AIME 2024 Dataset Cards & Benchmarks。 4.2 数据格式 以 Hugging Face Maxwell-Jia/AIME_2024 为例 [9] Maxwell-Jia/AIME_2024: 文件格式:JSONL(每行一个 JSON 对象)。 字段示例 [9] Maxwell-Jia/AIME_2024:{ "ID": "2024-I-1", "Problem": "题目正文 ...", "Solution": "(可选,有的版本含解析)", "Answer": 123 } 有些 eval repo(如 Qwen2.5-Math)提供的是 test.jsonl,字段类似 [10] Qwen2.5-Math AIME24 test.jsonl。 4.3 使用方式 典型评测协议: Prompt 中给出题目正文,不提示是「三位数答案」,只说「Give the final numeric answer.」; 模型输出最终答案; 将输出解析成整数(有时需从文本中抽取最后一个整数,比如 The answer is 123.); 与 Answer 字段比对是否完全相等。 训练: 一般不拿这么小的数据训练,只用作 eval; 有些 RL 工作会设计「AIME-Hard」版本,用来训练 reward model 或进行 reward shaping。 4.4 评估指标 Accuracy:答对题目的比例; 因为题量小,经常会给出「原始分数 / 总题数」,比如 14/30 = 46.7%。 5. AMC23 「AMC23」很可能是指 American Mathematics Competition 2023 的一个子集(如 AMC 10/12)构成的 benchmark。一些数学 reasoning 工作会把「AMC 2023(40 题左右)」作为一个独立 eval set。 5.1 内容与定位 来源:美国数学竞赛 AMC(American Mathematics Competitions),如 2023 AMC 10/12。 题型:单选题(多为 5 选 1),但在 LLM benchmark 中,常常把它改造成「开放式 + 自动判分」: 方式 1:让模型直接输出选项字母(A–E); 方式 2:让模型输出最后的数值,然后映射到选项。 难度:比 AIME 稍低,但比普通高中题高。 5.2 数据格式 以 Hugging Face 某些 amc23 数据集为例 [11] zwhe99/amc23 · Datasets at Hugging Face: 文件格式多为 Hugging Face datasets(内部转为 Parquet),也常见 .json 导出; 典型字段: problem: 题干(含选项 A–E 的文本); answer: 正确选项或数值; 有时会有 solution 字段。 黄皮书或 Omni-MATH 等更大 benchmark 也把 AMC2023 集成进去,统一用 jsonl(每行为一个题目)[12] OpenMathInstruct-2 Dataset [13] DeepScaleR-Preview-Dataset。 5.3 使用方式与评估指标 使用方式: 训练时可以强制输出 Answer: (A) 这类格式; 评估时从输出中抽取第一个合法选项(A/B/C/D/E),与标准答案比; 指标: 选择题:accuracy (选项是否匹配); 若转为开放式数值题,仍是 final answer exact match。 6. GaoKao2023En(Gaokao2023-Math-En) 6.1 内容与定位 来源:2023 年中国高考数学试题; 语言:专业翻译成英文 [14] MARIO-Math-Reasoning/Gaokao2023-Math-En; 功能:测试 LLM 在「非英文原生教育体系」的数学推理能力,且题目包含填空题、大题等多种形式。 MARIO 论文中称其为 GaoKao2023-Math-En,纳入多国考试混合集合同评估 [14] MARIO-Math-Reasoning/Gaokao2023-Math-En。 6.2 数据格式 以 MARIO-Math-Reasoning/Gaokao2023-Math-En 为例 [1] nlile/hendrycks-MATH-benchmark [14] MARIO-Math-Reasoning/Gaokao2023-Math-En: 样本数:385 道题(多套卷 / 多类型题合并); Hugging Face datasets 格式,通常可以导出 .json 或 .jsonl; 字段: 通常至少有 question / problem,answer; 部分增强版本添加 solution(解析)和难度等元信息 [15] Mobiusi/Gaokao2023-Math-En-Improved; MARIO 论文中说明评测使用 jsonl 文件 作为问题输入: 一行一个题目,字段包含题干、答案等 [16] MARIO: MAth Reasoning with code Interpreter Output。 6.3 使用方式和指标 使用方式: 作为 out-of-distribution eval set:因为训练通常没有高考原题; 让模型用英文 CoT 解题,最终输出一个数值或表达式; 指标: 仍然是 final answer accuracy; 某些复杂题(证明题)可能需要人工或额外 LLM 判分,但大多数是选择 / 填空 / 计算类,可以 exact match。 7. Minerva Math(Lewkowycz et al., 2022) 7.1 内容与定位 Minerva 是 Google 提出的一个「专门训练在数学/科学技术内容上的大语言模型」[17] Solving Quantitative Reasoning Problems with Language Models (Minerva) [18] Minerva: Solving Quantitative Reasoning Problems with Language Models; 为了评估 Minerva,他们整理了一组数学基准(人们常把这组叫 Minerva Math benchmark),包括: MATH; GSM8K; 其它大学水平的数学 / 物理题集等。 在后续很多论文中,「Minerva Math」通常指他们发布的一个整合过的数学 benchmark 子集,作为统一评测集(一些开源实现叫 minervamath 数据集)[19] math-ai/minervamath · Datasets at Hugging Face。 7.2 数据格式 以 math-ai/minervamath 为例 [19] math-ai/minervamath · Datasets at Hugging Face(通用情况): 格式:Hugging Face datasets,内部通常是 json / parquet; 字段大致包括: problem: 数学问题描述; answer: 标准答案(多为数值或表达式); 有时会有 solution 或 source 等。 Minerva 本身使用的是 LaTeX 风格题目和解答,与 MATH 类似。 7.3 使用方式与评估指标 使用方式: 常作为一个「混合数学 benchmark」:与 MATH、GSM8K 等一起评测; 对每道题同样让模型生成 CoT,最后给出数值/表达式。 指标: 仍以 final answer exact match accuracy 为主; 某些子集会区分「选择题 / 开放题」分别统计。 8. Olympiad Bench(OlympiadBench, He et al., 2024) 8.1 内容与定位 目标:构造一个 「奥赛级 + 多学科 + 多模态」的挑战性 benchmark,推动 AGI 发展 [20] OpenBMB/OlympiadBench - GitHub [21] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems。 学科:数学、物理、化学、生物、信息竞赛题等,双语(中英),含文本 + 图片 / 图表等多模态元素 [21] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems。 你关心的部分是 OlympiadBench-Math: 包含约 675 道奥赛级数学问题,很多是证明题、开放式问答题 [22] Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving; 难度远高于 MATH 和一般高中题。 8.2 数据格式 GitHub OpenBMB/OlympiadBench + Hugging Face 版本 [20] OpenBMB/OlympiadBench - GitHub [23] Hothan/OlympiadBench · Datasets at Hugging Face: 存储形式多为 JSON / JSONL; 核心字段(数学子集通常类似): problem: 题目描述(可能含图片链接,或 LaTeX); answer: 参考答案(对开放式题通常是较长文本); solution / analysis: 标准解析; subject:如 math, physics 等; language:zh / en; 可能还有 difficulty, source, problem_type(选择题 / 证明题等)。 对于「开放式问答和证明题」,他们设计了一套标准化答案格式和自动评分方案 [20] OpenBMB/OlympiadBench - GitHub 。 8.3 使用方式与评估指标 与前面纯数值题很不一样: 题目很多是: 证明题; 求解并解释理由; 需要多步逻辑和自然语言表述。 评估方式: 论文中采用了一种「自动化评分 + 人工校验」方案 [20] OpenBMB/OlympiadBench - GitHub : 对于有标准数值答案的子题,仍使用 final answer exact match; 对于开放式/证明题: 先用 LLM 或规则检查是否包含关键结论、关键步骤; 有时给出 0–1 或 0–N 的「部分得分」; 公开实现中,为了方便复现,通常采用: 对选择题 / 填空题:accuracy; 对证明题:用一个Judger LLM 给出 0/1(正确/错误),再统计 accuracy 或平均得分。 因为你提到的论文同时做「LLM-as-a-Judge」,OlympiadBench 这种需要 judge 评分的开放题非常适合用来测试「评判模型」性能。 9. 怎么在实验中实际使用这些 benchmark? 如果你刚入门,可以按「难度 + 工程复杂度」从低到高循序渐进: 入门:GSM8K 任务清晰:自然语言文字题 → 最终数字; 工程成本低:只要写一个脚本提取 #### 后的数字,算 accuracy; 适合作为你第一个 end-to-end 评测管线。 进阶:MATH + MATH500 学习如何: 处理 LaTeX; 强制模型输出 \boxed{}; 写更复杂的「normalize + exact match」脚本; 训练:可以用 7.5k 样本微调一个小模型; 评测:在 MATH500 上报 overall accuracy + 按科目/难度分布。 OOD 测试:AIME24, AMC23, GaoKao2023En, Minerva Math 把在 MATH 上训练/调优的模型拿来直接测试这些数据集: 不调整数据分布,看 out-of-distribution generalization; 指标:统一用 final answer accuracy,更方便横向比较。 最高难度:OlympiadBench-Math 若你要研究「LLM-as-a-Judge」或「步骤级打分」: 可选定其中一部分证明题; 让 candidate-model 给出解答,再用 judge-model 评判正确性; 可以设计: 人类评分 vs. judge-LLM 评分的一致性(相关系数、Kappa 等); 不同 judge 模型在 OlympiadBench 上的一致性和稳定性。 10. 各数据集关键信息速查表 名称 典型规模 难度 & 场景 常见格式 / 字段 主要评估指标 MATH 12.5k(7.5k 训练 + 5k 测试) 竞赛级(AMC/AIME 等),7 科目,难度 1–5 problem, solution, answer, subject, level, unique_id(LaTeX) final answer exact-match accuracy(带规范化)[2] MATH500 500 题 从 MATH 测试集中选的子集,用作标准 eval 同 MATH,test.jsonl accuracy on final answer GSM8K 8.5k(7.5k train + 1k test) 小学/初中应用题,多步推理 question, answer(含 CoT 和 #### number) final numeric answer accuracy [6] AIME24 / AIME241 ~15–30 题/集合 美国竞赛 AIME 2024,三位整数答案,难 ID, Problem, Answer(int),部分含 Solution 数值 exact-match accuracy AMC23 / AMC232 ~40 题 美国竞赛 AMC 2023,多为选择题 problem, answer, optional solution 选项 / 数值 accuracy GaoKao2023En ~385 题 2023 中国高考数学,翻译成英文,混合题型 question/problem, answer, optional solution final answer accuracy;部分复杂题需 LLM judge Minerva Math 数量依子集而定,通常几百到几千 多来源的数学题,用于评估 Minerva 等 problem, answer, optional solution, source final answer accuracy OlympiadBench-Math 约 675 题 各类奥赛题,含证明题,多模态 problem, answer, solution, subject, language 等 数值题:accuracy;证明题:LLM judge / 自动打分 如果你接下来想做一个从 0 到 1 的数学 reasoning 实验 pipeline,推荐顺序: 写一个简单的 evaluation 脚本,对 GSM8K 做 zero-shot / few-shot CoT,输出 accuracy; 扩展脚本支持 \boxed{} 解析和 LaTeX,接入 MATH500; 在 MATH 上用 7.5k 训练一个小模型或用指令微调(SFT),再在 MATH500 / GSM8K / AIME24 / GaoKao2023En 做 zero-shot transfer; 如果你对「LLM-as-a-Judge」感兴趣,再把 OlympiadBench-Math 里的证明题接上,设计 judge 模型的评分实验。 这样基本就把你引用那篇论文用到的所有 benchmark 跑通了。 References [1] nlile/hendrycks-MATH-benchmark. https://huggingface.co/datasets/nlile/hendrycks-MATH-benchmark [2] Measuring Mathematical Problem Solving With the MATH Dataset. https://arxiv.org/pdf/2103.03874.pdf [3] HuggingFaceH4/MATH-500. https://huggingface.co/datasets/HuggingFaceH4/MATH-500 [4] MATH-500 Benchmark Leaderboard. https://artificialanalysis.ai/evaluations/math-500 [5] Let's Verify Step by Step. https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf [6] Training Verifiers to Solve Math Word Problems (GSM8K). https://arxiv.org/abs/2110.14168 [7] openai/gsm8k · Datasets at Hugging Face. https://huggingface.co/datasets/openai/gsm8k [8] AIME 2024 Dataset Cards & Benchmarks. https://huggingface.co/datasets/Maxwell-Jia/AIME_2024 [9] Maxwell-Jia/AIME_2024. https://huggingface.co/datasets/Maxwell-Jia/AIME_2024 [10] Qwen2.5-Math AIME24 test.jsonl. https://github.com/QwenLM/Qwen2.5-Math/blob/main/evaluation/data/aime24/test.jsonl [11] zwhe99/amc23 · Datasets at Hugging Face. https://huggingface.co/datasets/zwhe99/amc23 [12] OpenMathInstruct-2 Dataset. https://huggingface.co/datasets/nvidia/OpenMathInstruct-2 [13] DeepScaleR-Preview-Dataset. https://modelscope.cn/datasets/agentica-org/DeepScaleR-Preview-Dataset [14] MARIO-Math-Reasoning/Gaokao2023-Math-En. https://huggingface.co/datasets/MARIO-Math-Reasoning/Gaokao2023-Math-En [15] Mobiusi/Gaokao2023-Math-En-Improved. https://huggingface.co/datasets/Mobiusi/Gaokao2023-Math-En-Improved [16] MARIO: MAth Reasoning with code Interpreter Output. https://openreview.net/pdf/d1120bb65ec677a3f29d21512e96ac3ec1281657.pdf [17] Solving Quantitative Reasoning Problems with Language Models (Minerva). https://arxiv.org/abs/2206.14858 [18] Minerva: Solving Quantitative Reasoning Problems with Language Models. https://research.google/blog/minerva-solving-quantitative-reasoning-problems-with-language-models/ [19] math-ai/minervamath · Datasets at Hugging Face. https://huggingface.co/datasets/math-ai/minervamath [20] OpenBMB/OlympiadBench - GitHub. https://github.com/OpenBMB/OlympiadBench [21] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems. https://arxiv.org/abs/2402.14008 [22] Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving. https://proceedings.neurips.cc/paper_files/paper/2024/file/0ef1afa0daa888d695dcd5e9513bafa3-Paper-Conference.pdf [23] Hothan/OlympiadBench · Datasets at Hugging Face. https://huggingface.co/datasets/Hothan/OlympiadBench