Hasty Briefsbeta

双语

HySparse: A Hybrid Sparse Attention Architecture

3 months ago

#attention mechanisms
#efficiency
#machine learning

HySparse是一种结合了全注意力和稀疏注意力层的混合稀疏注意力架构。
它使用全注意力层作为令牌选择的参考标准，无需依赖额外代理机制。
HySparse允许稀疏层复用全注意力层的KV缓存，显著降低计算量和内存消耗。
在70亿参数稠密模型和800亿参数MoE模型上的测试表明，HySparse性能优于全注意力及混合滑动窗口基线。
在800亿MoE模型中，HySparse在保持性能的同时将KV缓存存储量降低近10倍。