Hasty Briefsbeta

双语

DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning

8 months ago

#Large Language Models
#Reinforcement Learning
#Artificial Intelligence

人工智能中的通用推理是一个重大挑战，尽管大语言模型（LLMs）和思维链（CoT）提示等最新进展取得了一定成功，但仍需大量人工标注的演示数据。
研究表明，通过纯强化学习（RL）可以增强大语言模型的推理能力，无需依赖人工标注的推理轨迹。
提出的强化学习框架能自发形成高级推理模式，如自我反思、结果验证和动态策略调整。
采用强化学习训练的DeepSeek-R1-Zero模型，在数学、编程竞赛和STEM领域等可验证任务中，表现优于基于人类演示监督学习的模型。
DeepSeek-R1通过整合多阶段学习框架（包括拒绝采样、强化学习和监督微调），解决了Zero版本存在的可读性差和语言混杂问题。
这些模型展现出自我进化特性，其推理策略会随时间持续改进，包括反思性推理和替代解决方案探索。
尽管取得进展，仍存在奖励破解（reward hacking）、token效率、语言混杂和提示敏感性等挑战。
该研究揭示了强化学习释放大语言模型更高潜力的可能性，为未来开发更自主、自适应模型铺平道路。