Hasty Briefsbeta

双语

Step-by-step reasoning verifiers that think

a year ago

#Chain-of-Thought
#Machine Learning
#Process Reward Models

介绍ThinkPRM，一种用于验证的、可言语化的分步奖励模型。
ThinkPRM采用思维链（CoT）验证方法，仅需极少量监督即可运行。
在基准测试中超越LLM-as-a-Judge和判别式验证器等基线模型。
仅使用PRM800K 1%的过程标注数据即可获得更优结果。
在GPQA-Diamond和LiveCodeBench的跨领域评估中表现突出。
在相同token预算下更高效地扩展验证计算能力。
凸显了生成式长思维链PRM在测试时验证中的重要价值。