Hasty Briefsbeta

双语

Bamba: An open-source LLM that crosses a transformer with an SSM

a year ago
  • #AI
  • #LLM
  • #Transformer
  • IBM研究院与卡内基梅隆大学、普林斯顿大学和伊利诺伊大学合作开发了Bamba,这是一个结合Transformer表现力与SSM速度的开源大语言模型。
  • Transformer模型面临'二次方瓶颈'问题——对话长度增加会导致计算成本呈平方级增长,引发延迟和冗余计算。
  • 状态空间模型(SSMs)通过维护压缩隐藏状态,相比Transformer减少了内存开销并实现更快推理速度。
  • Bamba-9B将KV缓存内存需求降低至传统模型一半,在保持精度的同时运行速度达到同类Transformer的两倍。
  • 原本应用于电气工程和时序数据分析的SSM架构,经IBM研究者改造后成功应用于深度学习领域。
  • 门控SSM变体Mamba2催生了Samba、MambaFormer等混合架构,最终衍生出英伟达的Nemotron-H模型。
  • IBM使用3万亿token训练Bamba并进行8比特量化,其性能已媲美Meta的Llama-3.1 8B模型。
  • Bamba可处理3.2万token的对话,在vLLM框架支持下有望扩展至百万级上下文窗口,理论速度可达Transformer的五倍。