Hasty Briefsbeta

双语

Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search

8 months ago
  • #neural architecture search
  • #language models
  • #machine learning
  • Jet-Nemotron是一个新型混合架构语言模型家族,在保持或超越全注意力模型精度的同时显著提升生成吞吐量
  • 后神经架构搜索(PostNAS)作为创新模型设计流程,通过冻结预训练全注意力模型的MLP权重实现高效架构探索
  • PostNAS流程包含四大核心组件:全注意力层最优布局与剪枝、线性注意力块筛选、新型注意力块设计、硬件感知超参数搜索
  • Jet-Nemotron-2B模型在基准测试中达到或超越Qwen3/Qwen2.5/Gemma3/Llama3.2等模型的精度,同时实现显著的生成与预填充加速
  • 该模型在MMLU和MMLU-Pro基准上以更少参数量超越DeepSeek-V3-Small/Moonlight等更大规模的全注意力MoE模型