HySparse: A Hybrid Sparse Attention Architecture
3 months ago
- #attention mechanisms
- #efficiency
- #machine learning
- HySparse是一种结合了全注意力和稀疏注意力层的混合稀疏注意力架构。
- 它使用全注意力层作为令牌选择的参考标准,无需依赖额外代理机制。
- HySparse允许稀疏层复用全注意力层的KV缓存,显著降低计算量和内存消耗。
- 在70亿参数稠密模型和800亿参数MoE模型上的测试表明,HySparse性能优于全注意力及混合滑动窗口基线。
- 在800亿MoE模型中,HySparse在保持性能的同时将KV缓存存储量降低近10倍。