清华大学提出了一种名为TTRL(Transformer-based Text-to-Text Retrieval)的文本检索方法。该方法基于Transformer架构,旨在通过检索与给定查询最相关的文本片段来提高文本检索的准确性。TTRL的核心思想是利用T

摘要:不需要标准答案,大模型也能自我进化?清华提出 TTRL,用"投票"替代标注做强化学习 当测试数据没有标签,模型还能通过强化学习变强吗?TTRL 给出了一个令人惊讶的答案。 一个反直觉的发现
不需要标准答案,大模型也能自我进化?清华提出 TTRL,用"投票"替代标注做强化学习 当测试数据没有标签,模型还能通过强化学习变强吗?TTRL 给出了一个令人惊讶的答案。 一个反直觉的发现 强化学习(RL)正在成为大语言模型(LLM)推理能力提升的核心引擎。从 DeepSeek-R1 到 OpenAI 的 o1,这些令人瞩目的推理模型背后,都离不开 RL 的加持。 但 RL 有一个绑得很紧的前提假设:你需要知道什么是"对的"。无论是人类标注的偏好数据,还是数学题的标准答案,奖励信号的来源始终依赖于某种形式的"ground truth"。 这就引出了一个尖锐的问题——当我们面对的是没有标准答案的测试数据时,RL 还能用吗? 清华大学和上海 AI Lab 的研究团队提出了一个大胆的方案:TTRL(Test-Time Reinforcement Learning)。核心思路出奇地简单——让模型对同一道题生成多个答案,用多数投票(majority voting)来估计"伪标签",再基于这个伪标签计算奖励,驱动 RL 训练。 结果令人意外:在 AIME 2024 这个极具挑战性的数学竞赛基准上,TTRL 将 Qwen2.5-Math-7B 的 pass@1 从 12.9 提升到了 40.2,提升幅度高达 211%——而这一切,完全不需要任何标注数据。 为什么这篇论文值得关注? 当前 RL for Reasoning 的主流范式有一个共同的瓶颈:对标注数据的依赖。 GRPO、PPO 等方法在数学推理上取得了显著成功,但它们都需要带有标准答案的训练数据来计算奖励。随着任务难度不断攀升(比如 ARC-AGI-2 这样的前沿挑战),高质量标注变得越来越昂贵,甚至不可行。 TTRL 的意义在于,它打破了这个依赖链条: 不需要标注数据:直接在无标签的测试数据上做 RL 模型自我进化:利用模型自身的先验知识生成奖励信号 通用性强:在 4 个模型家族、多种规模上都有效 一句话理解:TTRL 让模型在"考试"的时候,一边做题一边学习,而且不需要答案册。 TTRL 的核心思路 传统 RL 的流程是:模型生成输出 → 与标准答案比对 → 计算奖励 → 更新模型。 TTRL 的关键改变在于奖励信号的来源。既然没有标准答案,那就让模型自己"投票"选出一个: 给定一道题,让模型生成 N 个候选答案 对这 N 个答案做多数投票,得票最多的答案作为"伪标签" 将每个候选答案与伪标签比对:一致的得 1 分,不一致的得 0 分 用这些奖励信号驱动 RL 训练(具体使用 GRPO 算法) 这个设计巧妙地将测试时缩放(Test-Time Scaling)和测试时训练(Test-Time Training)结合在了一起:多数投票本身就是一种 TTS 策略,而用投票结果驱动 RL 训练则属于 TTT 的范畴。 你可能会问:多数投票的结果不一定对啊?没错,伪标签确实会有噪声。但论文发现,这种"不完美的奖励"竟然足以驱动有效的学习——这是 TTRL 最反直觉的地方之一。 TTRL 具体怎么做? TTRL 的实现流程可以拆解为以下几步: 第一步:采样生成候选答案。 对于每道测试题,模型以一定温度(temperature=0.6)生成 64 个候选回答。 第二步:多数投票估计伪标签。 从 64 个回答中提取答案,统计出现频率最高的答案作为伪标签 ŷ。 第三步:计算奖励。 对每个候选答案,如果与伪标签一致则奖励为 1,否则为 0。这就是论文中的 majority voting reward function。 第四步:RL 训练。 使用 GRPO 算法,基于上述奖励信号更新模型参数。论文采用了"先投票再采样"的策略——从 64 个回答中选 32 个用于训练,有效降低了计算开销。 第五步:迭代。 在多个 epoch 上重复上述过程。随着模型变强,投票的准确率也会提高,形成正向循环。 关键结论:TTRL 的奖励信号是"自举"的——模型用自己的集体智慧来指导自己的学习。 实验结果:全面且令人信服 论文在 4 个基准测试上验证了 TTRL 的效果:AIME 2024(数学竞赛)、AMC(数学竞赛)、MATH-500(数学推理)和 GPQA-Diamond(研究生级别问答)。
阅读全文