Hasty Briefsbeta

双语

Bamba: An open-source LLM that crosses a transformer with an SSM

a year ago

#AI
#LLM
#Transformer

IBM研究院与卡内基梅隆大学、普林斯顿大学和伊利诺伊大学合作开发了Bamba，这是一个结合Transformer表现力与SSM速度的开源大语言模型。
Transformer模型面临'二次方瓶颈'问题——对话长度增加会导致计算成本呈平方级增长，引发延迟和冗余计算。
状态空间模型(SSMs)通过维护压缩隐藏状态，相比Transformer减少了内存开销并实现更快推理速度。
Bamba-9B将KV缓存内存需求降低至传统模型一半，在保持精度的同时运行速度达到同类Transformer的两倍。
原本应用于电气工程和时序数据分析的SSM架构，经IBM研究者改造后成功应用于深度学习领域。
门控SSM变体Mamba2催生了Samba、MambaFormer等混合架构，最终衍生出英伟达的Nemotron-H模型。
IBM使用3万亿token训练Bamba并进行8比特量化，其性能已媲美Meta的Llama-3.1 8B模型。
Bamba可处理3.2万token的对话，在vLLM框架支持下有望扩展至百万级上下文窗口，理论速度可达Transformer的五倍。