Hasty Briefsbeta

双语

End of Transformer Era Approaches

7 months ago

#AI Research
#LLM
#Power Retention

Brumby-14B-Base是一款完全无注意力机制的大语言模型，其性能可与最先进模型媲美。
该模型采用功率保留层替代注意力层，已在Huggingface平台开源。
训练成本仅为60小时/32张H100显卡/4000美元，远低于同类模型通常的20万美元开销。
初始权重继承自Qwen3-14B-Base，通过权重改造技术将Transformer权重重构为功率保留架构。
功率保留层与注意力层功能相似，但采用真正的循环神经网络机制，具备状态更新和门控信号。
支持超长上下文快速推理，即将发布新版内核和长上下文监督微调功能。
未来计划集成VLLM以提升推理速度和内存效率。
Brumby-14B-Base是该系列首款模型，后续将推出参数量从1B到100B+的不同版本。