Hasty Briefsbeta

双语

Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search

8 months ago

#neural architecture search
#language models
#machine learning

Jet-Nemotron是一个新型混合架构语言模型家族，在保持或超越全注意力模型精度的同时显著提升生成吞吐量
后神经架构搜索(PostNAS)作为创新模型设计流程，通过冻结预训练全注意力模型的MLP权重实现高效架构探索
PostNAS流程包含四大核心组件：全注意力层最优布局与剪枝、线性注意力块筛选、新型注意力块设计、硬件感知超参数搜索
Jet-Nemotron-2B模型在基准测试中达到或超越Qwen3/Qwen2.5/Gemma3/Llama3.2等模型的精度，同时实现显著的生成与预填充加速
该模型在MMLU和MMLU-Pro基准上以更少参数量超越DeepSeek-V3-Small/Moonlight等更大规模的全注意力MoE模型