Hasty Briefsbeta

双语

CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication Through RL

5 months ago

#CUDA
#HGEMM
#Optimization

CUDA-L2结合大型语言模型与强化学习来优化HGEMM CUDA核心，性能超越torch.matmul和NVIDIA官方库
已发布针对1,000种配置优化的A100 HGEMM核心，后续计划支持32位累加器
未来目标包括支持更高密度矩阵配置、扩展GPU架构支持（Ada Lovelace/Hopper/Blackwell）、简化开源LLM部署流程
A100核心专为A100优化，其他GPU加速效果不保证
遇到非常规矩阵维度时，用户可通过零填充或提交GitHub issue申请配置支持
运行环境要求Python、PyTorch≥2.6.0及NVIDIA CUTLASS v4.2.1
编译前需设置CUTLASS_DIR和TORCH_CUDA_ARCH_LIST环境变量
支持离线/服务器两种评估模式，可通过eval_one_file.sh脚本指定参数运行
问题反馈渠道：GitHub issue或联系邮箱jiwei_li@deep-reinforce.com