Llama-Nemotron: Efficient Reasoning Models
a year ago
- #AI
- #Open Source
- #Machine Learning
- Llama-Nemotron系列介绍:具有卓越能力和效率的异构推理模型开放家族
- 三种模型规模:Nano(8B)、Super(49B)、Ultra(253B),与DeepSeek-R1等顶尖模型性能相当
- 训练流程包含神经架构搜索、知识蒸馏、持续预训练和专注推理能力的后训练
- 首个支持动态推理切换的开源模型,可在对话模式与推理模式间自由转换
- 开源内容包含NVIDIA开放模型许可的模型、后训练数据集及训练代码库(NeMo/NeMo-Aligner/Megatron-LM)