Break the quadratic wall of Transformer attention: WERSA, paper+code open source
9 months ago
- #Machine-Learning
- #Attention-Mechanism
- #Transformer
- WERSA是一种具有线性O(n)时间复杂度的新型注意力机制,专为将Transformer模型扩展到超长序列而设计。
- 它结合了多分辨率分析(哈尔小波变换)、自适应滤波(MLP生成滤波器)和随机特征投影来实现线性复杂度。
- 安装需要PyTorch、Hugging Face Transformers以及从代码库获取的WERSA软件包。
- 快速入门示例展示了如何使用WERSA构建类似Qwen的模型,包括80亿参数和6亿参数的配置方案。
- 提供从零开始预训练模型的训练脚本及生成能力测试脚本。
- 该项目采用Apache 2.0许可证,相关论文可在arXiv平台获取。