GitHub - deepseek-ai/DeepSeek-V3

a month ago

DeepSeek-V3 是一个总参数量为671B的专家混合语言模型，每个令牌激活参数为37B，采用了多头潜在注意力和DeepSeekMoE等高效架构。
该模型开创了一种无需辅助损失的负载均衡策略，并使用多令牌预测训练目标，以提升性能和推理加速。
该模型通过FP8混合精度预训练在14.8万亿令牌上进行，仅使用278.8万H800 GPU小时即实现了高训练效率，且训练过程平稳无损失峰值。
训练后阶段包括从DeepSeek-R1进行知识蒸馏，以增强推理能力并控制输出风格和长度。
评估显示，DeepSeek-V3超越开源模型并与领先的闭源模型竞争，在数学和代码任务上表现卓越，并支持高达128K的上下文长度。
该模型可通过SGLang、LMDeploy、TensorRT-LLM、vLLM和LightLLM等多种框架进行本地部署，支持在NVIDIA、AMD和华为昇腾硬件上的FP8和BF16精度。
其代码采用MIT许可，商业使用需遵循模型许可协议，相关资源可在Hugging Face获取，技术报告发布于arXiv。

Hasty Briefsbeta