Hasty Briefsbeta

双语

GitHub - deepseek-ai/DeepSeek-V3

a month ago
  • #Large Language Model
  • #DeepSeek-V3
  • #Mixture-of-Experts
  • DeepSeek-V3 是一个总参数量为671B的专家混合语言模型,每个令牌激活参数为37B,采用了多头潜在注意力和DeepSeekMoE等高效架构。
  • 该模型开创了一种无需辅助损失的负载均衡策略,并使用多令牌预测训练目标,以提升性能和推理加速。
  • 该模型通过FP8混合精度预训练在14.8万亿令牌上进行,仅使用278.8万H800 GPU小时即实现了高训练效率,且训练过程平稳无损失峰值。
  • 训练后阶段包括从DeepSeek-R1进行知识蒸馏,以增强推理能力并控制输出风格和长度。
  • 评估显示,DeepSeek-V3超越开源模型并与领先的闭源模型竞争,在数学和代码任务上表现卓越,并支持高达128K的上下文长度。
  • 该模型可通过SGLang、LMDeploy、TensorRT-LLM、vLLM和LightLLM等多种框架进行本地部署,支持在NVIDIA、AMD和华为昇腾硬件上的FP8和BF16精度。
  • 其代码采用MIT许可,商业使用需遵循模型许可协议,相关资源可在Hugging Face获取,技术报告发布于arXiv。