Hasty Briefsbeta

双语

DeepSeek won the best paper award at ACL 2025

10 months ago
  • #Efficient Computing
  • #Machine Learning
  • #Natural Language Processing
  • NSA(原生稀疏注意力)被引入用于语言模型中的高效长上下文建模。
  • 它结合了动态分层稀疏策略与硬件对齐优化,以实现速度和效率的提升。
  • 关键创新包括算术强度平衡的算法设计和端到端的可训练性。
  • 在各种基准测试和任务中,NSA保持或超越了全注意力模型的性能表现。
  • 在64k长度序列的解码和传播阶段,相比全注意力模型实现了显著加速。