What Went into Training DeepSeek-R1? – Epoch AI
a year ago
- #AI
- #Machine Learning
- #DeepSeek-R1
- DeepSeek-R1是2025年1月20日发布的开源权重推理模型,基准测试性能与OpenAI的o1相当。
- DeepSeek-R1架构与DeepSeek v3完全相同,采用稀疏专家混合(MoE)设计,总参数量达6710亿,每token激活参数为370亿。
- 该模型使用多头潜在注意力(MLA)优化KV缓存大小,使长上下文推理过程受算术运算限制而非内存限制。
- 模型预训练使用2048块H800 GPU集群完成,处理14.8万亿token的总成本约为530万美元。
- 通过强化学习(RL)提升推理性能,相关成本约100万美元,使得总训练成本达到约600万美元。
- DeepSeek-R1性能对标OpenAI的o1,但定价显著更低——每百万输出token仅2.2美元,而o1为60美元。
- 该模型的效率与价格优势可能迫使美国实验室压缩其利润空间。