有哪些数学数据集如MATH、GSM8K、AIME24等常被使用？

摘要：最近在读这篇文章：论文题目：ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning 来源：NeurIPS 2025。 arxiv：http

最近在读这篇文章：论文题目：ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning 来源：NeurIPS 2025。 arxiv：https://arxiv.org/abs/2503.09501 GitHub：https://github.com/ziyuwan/ReMA-public 看到里面介绍数据集的一段话： We conduct experiments on two types of tasks: mathematical reasoning and LLM-as-a-Judge. For mathematical reasoning experiments, we train models on 7.5k training samples in MATH (Hendrycks et al., 2021) and use MATH500 (Lightman et al., 2023) as the in-distribution test dataset. Additionally, we test the optimized models on out-of-distribution datasets: GSM8K (Cobbe et al., 2021), AIME24, AMC23, GaoKao2023En (Zhang et al., 2023), Minerva Math (Lewkowycz et al., 2022), and Olympiad Bench (He et al., 2024). 我们在两种类型的任务上进行了实验：数学推理和 LLM 作为裁判。在数学推理实验中，我们在 MATH（Hendrycks 等人，2021 年）上使用 7.5k 个训练样本训练模型，并使用 MATH500（Lightman 等人，2023 年）作为分布内测试数据集。此外，我们在分布外数据集上测试了优化后的模型：GSM8K（Cobbe 等人，2021 年）、AIME24、AMC23、GaoKao2023En（张等人，2023 年）、Minerva Math（Lewkowycz 等人，2022 年）和 Olympiad Bench（He 等人，2024 年）。大意是，这个工作在做数学题的实验上，训练数据集是 MATH，分布内的测试数据集是 MATH500（这好像是一个标准做法），并且在一系列的分布外数学题数据集上测试了模型的性能。为了了解这些数据集 / benchmark 的信息，询问了 MiroThinker；还没仔细研究。 —— · —— 以下为 MiroThinker 的回答下面按你给的列表，一个个介绍这些数学推理相关的数据集 / benchmark，重点放在：题目长什么样（内容/难度）数据格式（文件形式、字段）通常怎么用（训练 / 测试 / 推理方式）常见的评估指标（evaluation metrics）会适当加一点「实战建议」，方便你直接拿来做实验。 1. MATH（Hendrycks et al., 2021） 1.1 内容与定位规模：12,500 道题，来自数学竞赛（AMC 10/12, AIME 等）[1] nlile/hendrycks-MATH-benchmark [2] Measuring Mathematical Problem Solving With the MATH Dataset 科目：7 大类 Prealgebra Algebra Number Theory Counting and Probability Geometry Intermediate Algebra Precalculus 难度：每题有 1–5 的难度标签（1 最简单，5 最难）题型：开放式主观题，不是选择题。解答：每题配有完整的 step-by-step 解析（LaTeX +自然语言），以及最终答案（用 \boxed{...} 包起来）[2] Measuring Mathematical Problem Solving With the MATH Dataset。这套数据的目标是测试「奥赛级」数学推理能力，是目前最经典的数学 reasoning benchmark 之一。 1.2 数据格式（你实际会接触到的）在 Hugging Face 版本中，典型字段包括[1]： problem: 字符串，题目正文（LaTeX 形式，含数学公式）。 solution: 完整的分步解答（LaTeX + 自然语言）。 answer: 最终答案（通常与 \boxed{} 里的内容一致，以便直接比对）。 subject: 七大科目之一。 level: 难度 1–5。 unique_id: 唯一编号。文件形式一般是：官方原始：结构化的文本 / json； Hugging Face：parquet 或自动转的 parquet，加载后就是标准字段；也有社区提供的 .json 或 .jsonl 版本（每行一题，字段同上）。 1.3 使用方式（训练 & 测试）训练（如你 paper 中说的 7.5k training samples）：常见做法：只用 problem -> answer：训练模型直接输出最终答案；或 problem -> solution：训练模型学会输出完整 CoT；或混合：论文中提到的「一半样本只预测答案，一半样本预测完整解答」[2]。输入：题干（可能带 category/difficulty），有时在 prompt 中要求「在最终结果前用 \boxed{} 包起来」。测试（evaluation）：通常只用测试集的一部分，或者整个 5k test set；你引文中的论文：训练用 7.5k，in-distribution 测试集用的是从 MATH 中选的 500 题（MATH500）。 1.4 评估指标（metrics）原始论文的主指标：[2] Measuring Mathematical Problem Solving With the MATH Dataset Exact-match accuracy on final answer 从模型输出中解析出 \boxed{...} 内的内容（或者最后一行的答案）；将它和标准答案进行「规范化后的字符串匹配」：分数：必须约分成最简；多项式：按降幂排序，变量按字母排序；向量/矩阵：有统一写法；因式分解：因子顺序不做区分；空格忽略，一些格式等价的写法视为同一个答案。常见扩展：按科目分 accuracy；按难度 level 分 accuracy。如果你自己评测：最简单：要求模型输出 The answer is \boxed{...}. 用脚本截取 \boxed{} 里的内容，做 exact match。更严格可以复现论文里的规范化规则，但起步不必这么复杂。 2. MATH500（MATH-500, Lightman et al. 2023） 2.1 内容与定位本质：从 MATH 测试集中选出的 500 题子集 [3] HuggingFaceH4/MATH-500 [4] MATH-500 Benchmark Leaderboard。用途：OpenAI「Let’s Verify Step by Step」等工作中，专门用来评测 process supervision / verifier / reasoning 优化等 [3] HuggingFaceH4/MATH-500 [4] MATH-500 Benchmark Leaderboard [5] Let's Verify Step by Step。难度：仍然是竞赛级，多科目、分难度。你看到的论文将它作为 in-distribution test set，因为它与训练数据 MATH 同分布，只是固定了一小部分作为标准对比。 2.2 数据格式 Hugging Face HuggingFaceH4/MATH-500 的字段基本与 MATH 一致[3]： problem solution answer subject level unique_id 文件形式： test.jsonl（最常用）：每行一个 JSON 对象；也自动提供 parquet。 2.3 使用方式通常仅作为评测集：不参与训练；你可以直接：读取 test.jsonl；对每个 problem 做推理，让模型输出带 \boxed{} 的答案；比对 answer 字段，算 accuracy。评估指标同 MATH：final answer exact-match accuracy。 3. GSM8K（Cobbe et al., 2021） 3.1 内容与定位全称：Grade School Math 8K。规模：8.5k 小学/初中阶段的数学应用题 [6] Training Verifiers to Solve Math Word Problems (GSM8K)： 7.5k 训练题； 1k 测试题。内容：英文自然语言的「文字应用题」，如： John has 3 apples, buys 2 more, how many now? 难度：每题需要 2–8 步推理，强调「multi-step reasoning」 [6] Training Verifiers to Solve Math Word Problems (GSM8K)。相比 MATH，GSM8K 更偏「日常文字推理」，逻辑链不短但数学本身不难。 3.2 数据格式在 GitHub / Hugging Face 中数据一般是 JSON 或通过脚本加载，[6] Training Verifiers to Solve Math Word Problems (GSM8K) [7] openai/gsm8k · Datasets at Hugging Face 常见字段： question: 题目自然语言； answer: 一段「带推理过程的文本 + 最后一行是 #### 最终数字」的形式。例如：To find the total, we add 3 and 2 to get 5. #### 5 文件组织：通常有 train 和 test 两个 split（在 Hugging Face datasets API 中定义）[7]；有人会导出 .jsonl 做 fine-tune。 3.3 使用方式训练：常见做法：输入：question 输出：完整 CoT（包含中间推理 + 以 #### number 结尾的答案）。对一些 RL / Verifier 工作，会额外生成多条不同的解答路径，用来训练 reward model 或 verifier。测试：对 test split 的每个问题，让模型输出一个解答；用脚本抓取末尾 #### 之后的数字作为「预测答案」。 3.4 评估指标主指标：final answer exact-match accuracy（比对数字是否一致）；有的工作也会看： majority voting / self-consistency 后的 accuracy；少数会做「步骤级别」的正确性分析，但标准 GSM8K benchmark 主要是答案准确率。 4. AIME24 AIME 2024（AIME24）相关的数学 benchmark，目前社区比较统一用法是：从 2024 AIME I & II 中选 15 或 30 题构建评测集 [8] AIME 2024 Dataset Cards & Benchmarks。 4.1 内容与定位来源：美国高中数学竞赛 American Invitational Mathematics Examination 2024（AIME 2024）。特点：每题答案是 000–999 之间的整数；题目难度显著高于普通高中考试；强调组合、数论、代数等竞赛型推理。数据量：最小版本：30 题（AIME I + II）；有些工作只取其中 15 题作为公开 benchmark [8] AIME 2024 Dataset Cards & Benchmarks。 4.2 数据格式以 Hugging Face Maxwell-Jia/AIME_2024 为例 [9] Maxwell-Jia/AIME_2024：文件格式：JSONL（每行一个 JSON 对象）。字段示例 [9] Maxwell-Jia/AIME_2024：{ "ID": "2024-I-1", "Problem": "题目正文 ...", "Solution": "（可选，有的版本含解析）", "Answer": 123 } 有些 eval repo（如 Qwen2.5-Math）提供的是 test.jsonl，字段类似 [10] Qwen2.5-Math AIME24 test.jsonl。 4.3 使用方式典型评测协议： Prompt 中给出题目正文，不提示是「三位数答案」，只说「Give the final numeric answer.」；模型输出最终答案；将输出解析成整数（有时需从文本中抽取最后一个整数，比如 The answer is 123.）；与 Answer 字段比对是否完全相等。训练：一般不拿这么小的数据训练，只用作 eval；有些 RL 工作会设计「AIME-Hard」版本，用来训练 reward model 或进行 reward shaping。 4.4 评估指标 Accuracy：答对题目的比例；因为题量小，经常会给出「原始分数 / 总题数」，比如 14/30 = 46.7%。 5. AMC23 「AMC23」很可能是指 American Mathematics Competition 2023 的一个子集（如 AMC 10/12）构成的 benchmark。一些数学 reasoning 工作会把「AMC 2023（40 题左右）」作为一个独立 eval set。 5.1 内容与定位来源：美国数学竞赛 AMC（American Mathematics Competitions），如 2023 AMC 10/12。题型：单选题（多为 5 选 1），但在 LLM benchmark 中，常常把它改造成「开放式 + 自动判分」：方式 1：让模型直接输出选项字母（A–E）；方式 2：让模型输出最后的数值，然后映射到选项。难度：比 AIME 稍低，但比普通高中题高。 5.2 数据格式以 Hugging Face 某些 amc23 数据集为例 [11] zwhe99/amc23 · Datasets at Hugging Face：文件格式多为 Hugging Face datasets（内部转为 Parquet），也常见 .json 导出；典型字段： problem: 题干（含选项 A–E 的文本）； answer: 正确选项或数值；有时会有 solution 字段。黄皮书或 Omni-MATH 等更大 benchmark 也把 AMC2023 集成进去，统一用 jsonl（每行为一个题目）[12] OpenMathInstruct-2 Dataset [13] DeepScaleR-Preview-Dataset。 5.3 使用方式与评估指标使用方式：训练时可以强制输出 Answer: (A) 这类格式；评估时从输出中抽取第一个合法选项（A/B/C/D/E），与标准答案比；指标：选择题：accuracy (选项是否匹配)；若转为开放式数值题，仍是 final answer exact match。 6. GaoKao2023En（Gaokao2023-Math-En） 6.1 内容与定位来源：2023 年中国高考数学试题；语言：专业翻译成英文 [14] MARIO-Math-Reasoning/Gaokao2023-Math-En；功能：测试 LLM 在「非英文原生教育体系」的数学推理能力，且题目包含填空题、大题等多种形式。 MARIO 论文中称其为 GaoKao2023-Math-En，纳入多国考试混合集合同评估 [14] MARIO-Math-Reasoning/Gaokao2023-Math-En。 6.2 数据格式以 MARIO-Math-Reasoning/Gaokao2023-Math-En 为例 [1] nlile/hendrycks-MATH-benchmark [14] MARIO-Math-Reasoning/Gaokao2023-Math-En：样本数：385 道题（多套卷 / 多类型题合并）； Hugging Face datasets 格式，通常可以导出 .json 或 .jsonl；字段：通常至少有 question / problem，answer；部分增强版本添加 solution（解析）和难度等元信息 [15] Mobiusi/Gaokao2023-Math-En-Improved； MARIO 论文中说明评测使用 jsonl 文件作为问题输入：一行一个题目，字段包含题干、答案等 [16] MARIO: MAth Reasoning with code Interpreter Output。 6.3 使用方式和指标使用方式：作为 out-of-distribution eval set：因为训练通常没有高考原题；让模型用英文 CoT 解题，最终输出一个数值或表达式；指标：仍然是 final answer accuracy；某些复杂题（证明题）可能需要人工或额外 LLM 判分，但大多数是选择 / 填空 / 计算类，可以 exact match。 7. Minerva Math（Lewkowycz et al., 2022） 7.1 内容与定位 Minerva 是 Google 提出的一个「专门训练在数学/科学技术内容上的大语言模型」[17] Solving Quantitative Reasoning Problems with Language Models (Minerva) [18] Minerva: Solving Quantitative Reasoning Problems with Language Models；为了评估 Minerva，他们整理了一组数学基准（人们常把这组叫 Minerva Math benchmark），包括： MATH； GSM8K；其它大学水平的数学 / 物理题集等。在后续很多论文中，「Minerva Math」通常指他们发布的一个整合过的数学 benchmark 子集，作为统一评测集（一些开源实现叫 minervamath 数据集）[19] math-ai/minervamath · Datasets at Hugging Face。 7.2 数据格式以 math-ai/minervamath 为例 [19] math-ai/minervamath · Datasets at Hugging Face（通用情况）：格式：Hugging Face datasets，内部通常是 json / parquet；字段大致包括： problem: 数学问题描述； answer: 标准答案（多为数值或表达式）；有时会有 solution 或 source 等。 Minerva 本身使用的是 LaTeX 风格题目和解答，与 MATH 类似。 7.3 使用方式与评估指标使用方式：常作为一个「混合数学 benchmark」：与 MATH、GSM8K 等一起评测；对每道题同样让模型生成 CoT，最后给出数值/表达式。指标：仍以 final answer exact match accuracy 为主；某些子集会区分「选择题 / 开放题」分别统计。 8. Olympiad Bench（OlympiadBench, He et al., 2024） 8.1 内容与定位目标：构造一个「奥赛级 + 多学科 + 多模态」的挑战性 benchmark，推动 AGI 发展 [20] OpenBMB/OlympiadBench - GitHub [21] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems。学科：数学、物理、化学、生物、信息竞赛题等，双语（中英），含文本 + 图片 / 图表等多模态元素 [21] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems。你关心的部分是 OlympiadBench-Math：包含约 675 道奥赛级数学问题，很多是证明题、开放式问答题 [22] Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving；难度远高于 MATH 和一般高中题。 8.2 数据格式 GitHub OpenBMB/OlympiadBench + Hugging Face 版本 [20] OpenBMB/OlympiadBench - GitHub [23] Hothan/OlympiadBench · Datasets at Hugging Face：存储形式多为 JSON / JSONL；核心字段（数学子集通常类似）： problem: 题目描述（可能含图片链接，或 LaTeX）； answer: 参考答案（对开放式题通常是较长文本）； solution / analysis: 标准解析； subject：如 math, physics 等； language：zh / en；可能还有 difficulty, source, problem_type（选择题 / 证明题等）。对于「开放式问答和证明题」，他们设计了一套标准化答案格式和自动评分方案 [20] OpenBMB/OlympiadBench - GitHub 。 8.3 使用方式与评估指标与前面纯数值题很不一样：题目很多是：证明题；求解并解释理由；需要多步逻辑和自然语言表述。评估方式：论文中采用了一种「自动化评分 + 人工校验」方案 [20] OpenBMB/OlympiadBench - GitHub ：对于有标准数值答案的子题，仍使用 final answer exact match；对于开放式/证明题：先用 LLM 或规则检查是否包含关键结论、关键步骤；有时给出 0–1 或 0–N 的「部分得分」；公开实现中，为了方便复现，通常采用：对选择题 / 填空题：accuracy；对证明题：用一个Judger LLM 给出 0/1（正确/错误），再统计 accuracy 或平均得分。因为你提到的论文同时做「LLM-as-a-Judge」，OlympiadBench 这种需要 judge 评分的开放题非常适合用来测试「评判模型」性能。 9. 怎么在实验中实际使用这些 benchmark？如果你刚入门，可以按「难度 + 工程复杂度」从低到高循序渐进：入门：GSM8K 任务清晰：自然语言文字题 → 最终数字；工程成本低：只要写一个脚本提取 #### 后的数字，算 accuracy；适合作为你第一个 end-to-end 评测管线。进阶：MATH + MATH500 学习如何：处理 LaTeX；强制模型输出 \boxed{}；写更复杂的「normalize + exact match」脚本；训练：可以用 7.5k 样本微调一个小模型；评测：在 MATH500 上报 overall accuracy + 按科目/难度分布。 OOD 测试：AIME24, AMC23, GaoKao2023En, Minerva Math 把在 MATH 上训练/调优的模型拿来直接测试这些数据集：不调整数据分布，看 out-of-distribution generalization；指标：统一用 final answer accuracy，更方便横向比较。最高难度：OlympiadBench-Math 若你要研究「LLM-as-a-Judge」或「步骤级打分」：可选定其中一部分证明题；让 candidate-model 给出解答，再用 judge-model 评判正确性；可以设计：人类评分 vs. judge-LLM 评分的一致性（相关系数、Kappa 等）；不同 judge 模型在 OlympiadBench 上的一致性和稳定性。 10. 各数据集关键信息速查表名称典型规模难度 & 场景常见格式 / 字段主要评估指标 MATH 12.5k（7.5k 训练 + 5k 测试）竞赛级（AMC/AIME 等），7 科目，难度 1–5 problem, solution, answer, subject, level, unique_id（LaTeX） final answer exact-match accuracy（带规范化）[2] MATH500 500 题从 MATH 测试集中选的子集，用作标准 eval 同 MATH，test.jsonl accuracy on final answer GSM8K 8.5k（7.5k train + 1k test）小学/初中应用题，多步推理 question, answer（含 CoT 和 #### number） final numeric answer accuracy [6] AIME24 / AIME241 ~15–30 题/集合美国竞赛 AIME 2024，三位整数答案，难 ID, Problem, Answer（int），部分含 Solution 数值 exact-match accuracy AMC23 / AMC232 ~40 题美国竞赛 AMC 2023，多为选择题 problem, answer, optional solution 选项 / 数值 accuracy GaoKao2023En ~385 题 2023 中国高考数学，翻译成英文，混合题型 question/problem, answer, optional solution final answer accuracy；部分复杂题需 LLM judge Minerva Math 数量依子集而定，通常几百到几千多来源的数学题，用于评估 Minerva 等 problem, answer, optional solution, source final answer accuracy OlympiadBench-Math 约 675 题各类奥赛题，含证明题，多模态 problem, answer, solution, subject, language 等数值题：accuracy；证明题：LLM judge / 自动打分如果你接下来想做一个从 0 到 1 的数学 reasoning 实验 pipeline，推荐顺序：写一个简单的 evaluation 脚本，对 GSM8K 做 zero-shot / few-shot CoT，输出 accuracy；扩展脚本支持 \boxed{} 解析和 LaTeX，接入 MATH500；在 MATH 上用 7.5k 训练一个小模型或用指令微调（SFT），再在 MATH500 / GSM8K / AIME24 / GaoKao2023En 做 zero-shot transfer；如果你对「LLM-as-a-Judge」感兴趣，再把 OlympiadBench-Math 里的证明题接上，设计 judge 模型的评分实验。这样基本就把你引用那篇论文用到的所有 benchmark 跑通了。 References [1] nlile/hendrycks-MATH-benchmark. https://huggingface.co/datasets/nlile/hendrycks-MATH-benchmark [2] Measuring Mathematical Problem Solving With the MATH Dataset. https://arxiv.org/pdf/2103.03874.pdf [3] HuggingFaceH4/MATH-500. https://huggingface.co/datasets/HuggingFaceH4/MATH-500 [4] MATH-500 Benchmark Leaderboard. https://artificialanalysis.ai/evaluations/math-500 [5] Let's Verify Step by Step. https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf [6] Training Verifiers to Solve Math Word Problems (GSM8K). https://arxiv.org/abs/2110.14168 [7] openai/gsm8k · Datasets at Hugging Face. https://huggingface.co/datasets/openai/gsm8k [8] AIME 2024 Dataset Cards & Benchmarks. https://huggingface.co/datasets/Maxwell-Jia/AIME_2024 [9] Maxwell-Jia/AIME_2024. https://huggingface.co/datasets/Maxwell-Jia/AIME_2024 [10] Qwen2.5-Math AIME24 test.jsonl. https://github.com/QwenLM/Qwen2.5-Math/blob/main/evaluation/data/aime24/test.jsonl [11] zwhe99/amc23 · Datasets at Hugging Face. https://huggingface.co/datasets/zwhe99/amc23 [12] OpenMathInstruct-2 Dataset. https://huggingface.co/datasets/nvidia/OpenMathInstruct-2 [13] DeepScaleR-Preview-Dataset. https://modelscope.cn/datasets/agentica-org/DeepScaleR-Preview-Dataset [14] MARIO-Math-Reasoning/Gaokao2023-Math-En. https://huggingface.co/datasets/MARIO-Math-Reasoning/Gaokao2023-Math-En [15] Mobiusi/Gaokao2023-Math-En-Improved. https://huggingface.co/datasets/Mobiusi/Gaokao2023-Math-En-Improved [16] MARIO: MAth Reasoning with code Interpreter Output. https://openreview.net/pdf/d1120bb65ec677a3f29d21512e96ac3ec1281657.pdf [17] Solving Quantitative Reasoning Problems with Language Models (Minerva). https://arxiv.org/abs/2206.14858 [18] Minerva: Solving Quantitative Reasoning Problems with Language Models. https://research.google/blog/minerva-solving-quantitative-reasoning-problems-with-language-models/ [19] math-ai/minervamath · Datasets at Hugging Face. https://huggingface.co/datasets/math-ai/minervamath [20] OpenBMB/OlympiadBench - GitHub. https://github.com/OpenBMB/OlympiadBench [21] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems. https://arxiv.org/abs/2402.14008 [22] Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving. https://proceedings.neurips.cc/paper_files/paper/2024/file/0ef1afa0daa888d695dcd5e9513bafa3-Paper-Conference.pdf [23] Hothan/OlympiadBench · Datasets at Hugging Face. https://huggingface.co/datasets/Hothan/OlympiadBench

有哪些数学数据集如MATH、GSM8K、AIME24等常被使用？

相关推荐