1.概述
DeepSeek-R1-Zero [10] 最近展示了使用可验证奖励的强化学习(RL)训练大型语言模型(LLMs)可以极大地提高推理能力。在这个可验证奖励的强化学习(RLVR)框架 [17] 中,LLM 生成一个推理过程(即,思维链,CoT),然后给出最终答案。一个基于规则的程序随后提取并评估最终答案,如果最终答案是正确的,则将奖励1分配给响应,否则为0。该模型使用 GRPO [37] 进行 RL 训练——这是 PPO [36] 的一种简化变体。
这种方法的简单性,加上在数学推理任务中令人印象深刻的性能提升,引发了一波后续工作,这些工作在这个 RL 与基于规则的可验证奖励的范式中进行 [24, 26, 45],我们将在下文中称之为 R1-Zero 风格训练。然而,这些方法仍然局限于数学和编码等领域,在这些领域中,基于规则的验证是可行的。推理在数学和编码之外的领域中至关重要;然而,一般推理任务中答案验证的难度构成了将这种训练范式应用于更广泛领域的主要障碍。为了解决这一限制,我们研究了如何将 R1-Zero 风格训练扩展到无法进行基于规则的答案验证的任务中。
&nb