Hasty Briefsbeta

双语

DeepSeek won the best paper award at ACL 2025

10 months ago

#Efficient Computing
#Machine Learning
#Natural Language Processing

NSA（原生稀疏注意力）被引入用于语言模型中的高效长上下文建模。
它结合了动态分层稀疏策略与硬件对齐优化，以实现速度和效率的提升。
关键创新包括算术强度平衡的算法设计和端到端的可训练性。
在各种基准测试和任务中，NSA保持或超越了全注意力模型的性能表现。
在64k长度序列的解码和传播阶段，相比全注意力模型实现了显著加速。