Hasty Briefsbeta

双语

Zebra-Llama: Towards Efficient Hybrid Models

5 months ago

#Efficiency Optimization
#Machine Learning
#Large Language Models

提出Zebra-Llama模型家族（1B/3B/8B），通过融合状态空间模型（SSMs）与多头潜在注意力层（MLA）构建混合架构
仅用7-11B训练token和8B教师模型即实现Transformer级精度，同时保持接近SSM的计算效率
关键值缓存（KV cache）体积显著压缩至原版的3.9%/2%/2.73%（对应1B/3B/8B变体），零样本性能无损
在准确率指标上超越MambaInLLaMA/X-EcoMLA/Minitron/Llamba等模型，且具备更少训练token、更小教师模型及更低KV缓存需求
Zebra-Llama-8B较Minitron-8B实现7%的小样本准确率提升，训练token用量减少8倍，KV缓存体积缩小12倍以上
在32k上下文长度内，吞吐量达到MambaInLlama的2.6-3.8倍
代码与模型权重将在论文录用后开源