Hasty Briefsbeta

双语

HySparse: A Hybrid Sparse Attention Architecture

3 months ago
  • #attention mechanisms
  • #efficiency
  • #machine learning
  • HySparse是一种结合了全注意力和稀疏注意力层的混合稀疏注意力架构。
  • 它使用全注意力层作为令牌选择的参考标准,无需依赖额外代理机制。
  • HySparse允许稀疏层复用全注意力层的KV缓存,显著降低计算量和内存消耗。
  • 在70亿参数稠密模型和800亿参数MoE模型上的测试表明,HySparse性能优于全注意力及混合滑动窗口基线。
  • 在800亿MoE模型中,HySparse在保持性能的同时将KV缓存存储量降低近10倍。