Hasty Briefsbeta

双语

Llama-Nemotron: Efficient Reasoning Models

a year ago

#AI
#Open Source
#Machine Learning

Llama-Nemotron系列介绍：具有卓越能力和效率的异构推理模型开放家族
三种模型规模：Nano（8B）、Super（49B）、Ultra（253B），与DeepSeek-R1等顶尖模型性能相当
训练流程包含神经架构搜索、知识蒸馏、持续预训练和专注推理能力的后训练
首个支持动态推理切换的开源模型，可在对话模式与推理模式间自由转换
开源内容包含NVIDIA开放模型许可的模型、后训练数据集及训练代码库（NeMo/NeMo-Aligner/Megatron-LM）