Hasty Briefsbeta

双语

Outcome-Based Reinforcement Learning to Predict the Future

a year ago
  • #Forecasting
  • #Machine Learning
  • #Reinforcement Learning
  • 基于可验证奖励的强化学习(RLVR)提升了大型语言模型在数学和编程领域的表现,但在预测等现实场景中仍面临挑战
  • 基于结果的预测强化学习需处理二元化、延迟性和噪声化的奖励信号,这使得标准微调方法显得脆弱
  • 改进版GRPO(组相对策略优化)和ReMax算法显著提升了预测准确性、校准度及假设预测市场中的投注表现
  • 关键改进包括:取消GRPO中逐题方差缩放、在ReMax中应用基线校正优势值,以及使用10万道合成问题进行训练
  • 轻量级护栏机制通过惩罚胡言乱语、非英语回答及缺失推理过程,实现了11万次事件中的稳定训练
  • 应用这些改进的140亿参数模型在准确率上媲美前沿基线,在校准度上实现超越,展现出预测工具的经济价值
  • 将ReMax扩展至11万道问题并结合集成预测后,模型获得0.193的布里尔分数和0.042的预期校准误差
  • 假设性交易实验显示改进模型盈利127美元,优于基线模型的92美元,证明精炼的RLVR方法能创造具有经济价值的预测工具