Hasty Briefsbeta

双语

Break the quadratic wall of Transformer attention: WERSA, paper+code open source

9 months ago
  • #Machine-Learning
  • #Attention-Mechanism
  • #Transformer
  • WERSA是一种具有线性O(n)时间复杂度的新型注意力机制,专为将Transformer模型扩展到超长序列而设计。
  • 它结合了多分辨率分析(哈尔小波变换)、自适应滤波(MLP生成滤波器)和随机特征投影来实现线性复杂度。
  • 安装需要PyTorch、Hugging Face Transformers以及从代码库获取的WERSA软件包。
  • 快速入门示例展示了如何使用WERSA构建类似Qwen的模型,包括80亿参数和6亿参数的配置方案。
  • 提供从零开始预训练模型的训练脚本及生成能力测试脚本。
  • 该项目采用Apache 2.0许可证,相关论文可在arXiv平台获取。