Fp8 runs ~100 tflops faster when the kernel name has "cutlass" in it
10 months ago
- #Performance
- #Gluon
- #GitHub
- 用户必须登录GitHub才能更改通知设置。
- 在#7298号议题中讨论了关于Gluon框架中持久注意力机制的教程。
- 将内核转换为持久模式后观察到性能提升,特别是名称中包含'cutlass'的fp8内核。
- 由于softmax分区中ptxas指令调度问题,fp16在大上下文场景下出现性能下降。
- 讨论涉及布局不匹配问题,以及与内核命名相关的性能优化方案。
- 贡献者们就精度检查及内核命名对性能的影响展开了辩论。