Zebra-Llama: Towards Efficient Hybrid Models
5 months ago
- #Efficiency Optimization
- #Machine Learning
- #Large Language Models
- 提出Zebra-Llama模型家族(1B/3B/8B),通过融合状态空间模型(SSMs)与多头潜在注意力层(MLA)构建混合架构
- 仅用7-11B训练token和8B教师模型即实现Transformer级精度,同时保持接近SSM的计算效率
- 关键值缓存(KV cache)体积显著压缩至原版的3.9%/2%/2.73%(对应1B/3B/8B变体),零样本性能无损
- 在准确率指标上超越MambaInLLaMA/X-EcoMLA/Minitron/Llamba等模型,且具备更少训练token、更小教师模型及更低KV缓存需求
- Zebra-Llama-8B较Minitron-8B实现7%的小样本准确率提升,训练token用量减少8倍,KV缓存体积缩小12倍以上
- 在32k上下文长度内,吞吐量达到MambaInLlama的2.6-3.8倍
- 代码与模型权重将在论文录用后开源