Hasty Briefsbeta

双语

What Went into Training DeepSeek-R1? – Epoch AI

a year ago

#AI
#Machine Learning
#DeepSeek-R1

DeepSeek-R1是2025年1月20日发布的开源权重推理模型，基准测试性能与OpenAI的o1相当。
DeepSeek-R1架构与DeepSeek v3完全相同，采用稀疏专家混合（MoE）设计，总参数量达6710亿，每token激活参数为370亿。
该模型使用多头潜在注意力（MLA）优化KV缓存大小，使长上下文推理过程受算术运算限制而非内存限制。
模型预训练使用2048块H800 GPU集群完成，处理14.8万亿token的总成本约为530万美元。
通过强化学习（RL）提升推理性能，相关成本约100万美元，使得总训练成本达到约600万美元。
DeepSeek-R1性能对标OpenAI的o1，但定价显著更低——每百万输出token仅2.2美元，而o1为60美元。
该模型的效率与价格优势可能迫使美国实验室压缩其利润空间。