CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication Through RL
3 months ago
- #CUDA
- #HGEMM
- #Optimization
- CUDA-L2结合大型语言模型与强化学习来优化HGEMM CUDA核心,性能超越torch.matmul和NVIDIA官方库
- 已发布针对1,000种配置优化的A100 HGEMM核心,后续计划支持32位累加器
- 未来目标包括支持更高密度矩阵配置、扩展GPU架构支持(Ada Lovelace/Hopper/Blackwell)、简化开源LLM部署流程
- A100核心专为A100优化,其他GPU加速效果不保证
- 遇到非常规矩阵维度时,用户可通过零填充或提交GitHub issue申请配置支持
- 运行环境要求Python、PyTorch≥2.6.0及NVIDIA CUTLASS v4.2.1
- 编译前需设置CUTLASS_DIR和TORCH_CUDA_ARCH_LIST环境变量
- 支持离线/服务器两种评估模式,可通过eval_one_file.sh脚本指定参数运行
- 问题反馈渠道:GitHub issue或联系邮箱[email protected]