Step-by-step reasoning verifiers that think
a year ago
- #Chain-of-Thought
- #Machine Learning
- #Process Reward Models
- 介绍ThinkPRM,一种用于验证的、可言语化的分步奖励模型。
- ThinkPRM采用思维链(CoT)验证方法,仅需极少量监督即可运行。
- 在基准测试中超越LLM-as-a-Judge和判别式验证器等基线模型。
- 仅使用PRM800K 1%的过程标注数据即可获得更优结果。
- 在GPQA-Diamond和LiveCodeBench的跨领域评估中表现突出。
- 在相同token预算下更高效地扩展验证计算能力。
- 凸显了生成式长思维链PRM在测试时验证中的重要价值。