Hasty Briefsbeta

双语

Surprisingly Fast AI-Generated Kernels We Didn't Mean to Publish (Yet)

a year ago
  • #CUDA optimization
  • #AI-generated kernels
  • #machine learning
  • 在某些情况下,AI生成的CUDA-C内核性能优于专家优化的PyTorch内核
  • 用于训练内核生成模型的合成数据生成意外产生了高性能内核
  • 该方法采用结构化探索性搜索与并行评估,提高了优化思路的多样性
  • 优化策略包括FP16 Tensor-Core GEMM转换、双缓冲和共享内存缓存技术
  • Conv2D优化轨迹示例显示性能从基准的20.1%提升至179.9%
  • 该方法结合了强推理能力与并行假设探索,与当前AI研究趋势一致
  • 当前局限性包括FP32精度处理挑战及Flash Attention等复杂内核优化难题
  • 由于持续进展和自改进AI系统的潜力,对未来提升持乐观态度