Surprisingly Fast AI-Generated Kernels We Didn't Mean to Publish (Yet)
a year ago
- #CUDA optimization
- #AI-generated kernels
- #machine learning
- 在某些情况下,AI生成的CUDA-C内核性能优于专家优化的PyTorch内核
- 用于训练内核生成模型的合成数据生成意外产生了高性能内核
- 该方法采用结构化探索性搜索与并行评估,提高了优化思路的多样性
- 优化策略包括FP16 Tensor-Core GEMM转换、双缓冲和共享内存缓存技术
- Conv2D优化轨迹示例显示性能从基准的20.1%提升至179.9%
- 该方法结合了强推理能力与并行假设探索,与当前AI研究趋势一致
- 当前局限性包括FP32精度处理挑战及Flash Attention等复杂内核优化难题
- 由于持续进展和自改进AI系统的潜力,对未来提升持乐观态度