Hasty Briefsbeta

双语

Break the quadratic wall of Transformer attention: WERSA, paper+code open source

9 months ago

#Machine-Learning
#Attention-Mechanism
#Transformer

WERSA是一种具有线性O(n)时间复杂度的新型注意力机制，专为将Transformer模型扩展到超长序列而设计。
它结合了多分辨率分析（哈尔小波变换）、自适应滤波（MLP生成滤波器）和随机特征投影来实现线性复杂度。
安装需要PyTorch、Hugging Face Transformers以及从代码库获取的WERSA软件包。
快速入门示例展示了如何使用WERSA构建类似Qwen的模型，包括80亿参数和6亿参数的配置方案。
提供从零开始预训练模型的训练脚本及生成能力测试脚本。
该项目采用Apache 2.0许可证，相关论文可在arXiv平台获取。