Hasty Briefsbeta

双语

CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication Through RL

3 months ago
  • #CUDA
  • #HGEMM
  • #Optimization
  • CUDA-L2结合大型语言模型与强化学习来优化HGEMM CUDA核心,性能超越torch.matmul和NVIDIA官方库
  • 已发布针对1,000种配置优化的A100 HGEMM核心,后续计划支持32位累加器
  • 未来目标包括支持更高密度矩阵配置、扩展GPU架构支持(Ada Lovelace/Hopper/Blackwell)、简化开源LLM部署流程
  • A100核心专为A100优化,其他GPU加速效果不保证
  • 遇到非常规矩阵维度时,用户可通过零填充或提交GitHub issue申请配置支持
  • 运行环境要求Python、PyTorch≥2.6.0及NVIDIA CUTLASS v4.2.1
  • 编译前需设置CUTLASS_DIR和TORCH_CUDA_ARCH_LIST环境变量
  • 支持离线/服务器两种评估模式,可通过eval_one_file.sh脚本指定参数运行
  • 问题反馈渠道:GitHub issue或联系邮箱[email protected]