Hasty Briefsbeta

双语

Fp8 runs ~100 tflops faster when the kernel name has "cutlass" in it

10 months ago
  • #Performance
  • #Gluon
  • #GitHub
  • 用户必须登录GitHub才能更改通知设置。
  • 在#7298号议题中讨论了关于Gluon框架中持久注意力机制的教程。
  • 将内核转换为持久模式后观察到性能提升,特别是名称中包含'cutlass'的fp8内核。
  • 由于softmax分区中ptxas指令调度问题,fp16在大上下文场景下出现性能下降。
  • 讨论涉及布局不匹配问题,以及与内核命名相关的性能优化方案。
  • 贡献者们就精度检查及内核命名对性能的影响展开了辩论。