Hasty Briefsbeta

双语

Outcome-Based Reinforcement Learning to Predict the Future

a year ago

#Forecasting
#Machine Learning
#Reinforcement Learning

基于可验证奖励的强化学习（RLVR）提升了大型语言模型在数学和编程领域的表现，但在预测等现实场景中仍面临挑战
基于结果的预测强化学习需处理二元化、延迟性和噪声化的奖励信号，这使得标准微调方法显得脆弱
改进版GRPO（组相对策略优化）和ReMax算法显著提升了预测准确性、校准度及假设预测市场中的投注表现
关键改进包括：取消GRPO中逐题方差缩放、在ReMax中应用基线校正优势值，以及使用10万道合成问题进行训练
轻量级护栏机制通过惩罚胡言乱语、非英语回答及缺失推理过程，实现了11万次事件中的稳定训练
应用这些改进的140亿参数模型在准确率上媲美前沿基线，在校准度上实现超越，展现出预测工具的经济价值
将ReMax扩展至11万道问题并结合集成预测后，模型获得0.193的布里尔分数和0.042的预期校准误差
假设性交易实验显示改进模型盈利127美元，优于基线模型的92美元，证明精炼的RLVR方法能创造具有经济价值的预测工具