Hasty Briefsbeta

双语

End of Transformer Era Approaches

7 months ago
  • #AI Research
  • #LLM
  • #Power Retention
  • Brumby-14B-Base是一款完全无注意力机制的大语言模型,其性能可与最先进模型媲美。
  • 该模型采用功率保留层替代注意力层,已在Huggingface平台开源。
  • 训练成本仅为60小时/32张H100显卡/4000美元,远低于同类模型通常的20万美元开销。
  • 初始权重继承自Qwen3-14B-Base,通过权重改造技术将Transformer权重重构为功率保留架构。
  • 功率保留层与注意力层功能相似,但采用真正的循环神经网络机制,具备状态更新和门控信号。
  • 支持超长上下文快速推理,即将发布新版内核和长上下文监督微调功能。
  • 未来计划集成VLLM以提升推理速度和内存效率。
  • Brumby-14B-Base是该系列首款模型,后续将推出参数量从1B到100B+的不同版本。