Nemotron 3 Nano 4B: A Compact Hybrid Model for Efficient Local AI
2 months ago
- #AI
- #NVIDIA
- #Edge Computing
- Nemotron 3 Nano 4B 是一款专为边缘计算优化的紧凑型混合AI模型,适配NVIDIA Jetson、DGX Spark和RTX GPU等平台部署
- 该模型在指令跟随、游戏智能、显存效率和延迟方面均达到业界领先的准确性与效能
- 基于Nemotron Elastic框架从Nemotron Nano 9B v2模型通过剪枝与蒸馏获得,继承了强大的推理能力
- Nemotron Elastic采用训练路由器的神经架构搜索技术,可动态决策Mamba头、隐藏维度、FFN通道和网络深度等多维剪枝
- 后剪枝阶段采用两阶段蒸馏流程:先精度恢复再长上下文扩展,随后进行监督微调与多环境强化学习
- 应用FP8和Q4_K_M GGUF等量化技术提升效能,在保持精度的同时显著降低显存占用
- Nemotron 3 Nano 4B为开源模型,支持针对垂直领域的定制化微调
- 兼容Transformers/vLLM/TRT-LLM/Llama.cpp等多种推理引擎,提供完整的边缘部署方案支持