Hasty Briefsbeta

双语

Build a DeepSeek Model from Scratch

6 months ago
  • #DeepSeek
  • #AI
  • #LLM
  • DeepSeek引入了创新策略,如专家混合(Mixture of Experts)、潜在注意力(Latent Attention)和多令牌预测(Multi-token Prediction),以低成本实现高性能。
  • 课程《从头构建DeepSeek模型》教授如何实现DeepSeek的核心创新技术,包括多头潜在注意力(Multi-Head Latent Attention)和专家混合层(Mixture-of-Experts layers)。
  • 学员将学习构建具备生产就绪性的训练流程,结合多令牌预测和FP8量化技术以提升效率。
  • 课程涵盖并行策略(如DualPipe)以最大化硬件利用率。
  • 课后训练方法包括监督微调和强化学习,以增强模型推理能力。
  • 课程还教授将大模型压缩蒸馏为可部署小型版本的技术。
  • 课程从大语言模型基础回顾开始,重点讲解DeepSeek的创新如何解决常见局限性。