DeepSeek won the best paper award at ACL 2025
10 months ago
- #Efficient Computing
- #Machine Learning
- #Natural Language Processing
- NSA(原生稀疏注意力)被引入用于语言模型中的高效长上下文建模。
- 它结合了动态分层稀疏策略与硬件对齐优化,以实现速度和效率的提升。
- 关键创新包括算术强度平衡的算法设计和端到端的可训练性。
- 在各种基准测试和任务中,NSA保持或超越了全注意力模型的性能表现。
- 在64k长度序列的解码和传播阶段,相比全注意力模型实现了显著加速。