Build a DeepSeek Model from Scratch

6 months ago

DeepSeek引入了创新策略，如专家混合（Mixture of Experts）、潜在注意力（Latent Attention）和多令牌预测（Multi-token Prediction），以低成本实现高性能。
课程《从头构建DeepSeek模型》教授如何实现DeepSeek的核心创新技术，包括多头潜在注意力（Multi-Head Latent Attention）和专家混合层（Mixture-of-Experts layers）。
学员将学习构建具备生产就绪性的训练流程，结合多令牌预测和FP8量化技术以提升效率。
课程涵盖并行策略（如DualPipe）以最大化硬件利用率。
课后训练方法包括监督微调和强化学习，以增强模型推理能力。
课程还教授将大模型压缩蒸馏为可部署小型版本的技术。
课程从大语言模型基础回顾开始，重点讲解DeepSeek的创新如何解决常见局限性。

Hasty Briefsbeta