有哪些数学数据集如MATH、GSM8K、AIME24等常被使用?

摘要:最近在读这篇文章: 论文题目:ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning 来源:NeurIPS 2025。 arxiv:http
最近在读这篇文章: 论文题目:ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning 来源:NeurIPS 2025。 arxiv:https://arxiv.org/abs/2503.09501 GitHub:https://github.com/ziyuwan/ReMA-public 看到里面介绍数据集的一段话: We conduct experiments on two types of tasks: mathematical reasoning and LLM-as-a-Judge. For mathematical reasoning experiments, we train models on 7.5k training samples in MATH (Hendrycks et al., 2021) and use MATH500 (Lightman et al., 2023) as the in-distribution test dataset. Additionally, we test the optimized models on out-of-distribution datasets: GSM8K (Cobbe et al., 2021), AIME24, AMC23, GaoKao2023En (Zhang et al., 2023), Minerva Math (Lewkowycz et al., 2022), and Olympiad Bench (He et al., 2024). 我们在两种类型的任务上进行了实验:数学推理和 LLM 作为裁判。在数学推理实验中,我们在 MATH(Hendrycks 等人,2021 年)上使用 7.5k 个训练样本训练模型,并使用 MATH500(Lightman 等人,2023 年)作为分布内测试数据集。此外,我们在分布外数据集上测试了优化后的模型:GSM8K(Cobbe 等人,2021 年)、AIME24、AMC23、GaoKao2023En(张等人,2023 年)、Minerva Math(Lewkowycz 等人,2022 年)和 Olympiad Bench(He 等人,2024 年)。 大意是,这个工作在做数学题的实验上,训练数据集是 MATH,分布内的测试数据集是 MATH500(这好像是一个标准做法),并且在一系列的分布外 数学题数据集上测试了模型的性能。 为了了解这些数据集 / benchmark 的信息,询问了 MiroThinker;还没仔细研究。 —— · —— 以下为 MiroThinker 的回答 下面按你给的列表,一个个介绍这些数学推理相关的数据集 / benchmark,重点放在: 题目长什么样(内容/难度) 数据格式(文件形式、字段) 通常怎么用(训练 / 测试 / 推理方式) 常见的评估指标(evaluation metrics) 会适当加一点「实战建议」,方便你直接拿来做实验。 1. MATH(Hendrycks et al., 2021) 1.1 内容与定位 规模:12,500 道题,来自数学竞赛(AMC 10/12, AIME 等)[1] nlile/hendrycks-MATH-benchmark [2] Measuring Mathematical Problem Solving With the MATH Dataset 科目:7 大类 Prealgebra Algebra Number Theory Counting and Probability Geometry Intermediate Algebra Precalculus 难度:每题有 1–5 的难度标签(1 最简单,5 最难) 题型:开放式主观题,不是选择题。 解答:每题配有 完整的 step-by-step 解析(LaTeX +自然语言),以及 最终答案(用 \boxed{...} 包起来)[2] Measuring Mathematical Problem Solving With the MATH Dataset。 这套数据的目标是测试「奥赛级」数学推理能力,是目前最经典的数学 reasoning benchmark 之一。 1.2 数据格式(你实际会接触到的) 在 Hugging Face 版本中,典型字段包括[1]: problem: 字符串,题目正文(LaTeX 形式,含数学公式)。 solution: 完整的分步解答(LaTeX + 自然语言)。
阅读全文