Speeding up PyTorch inference on Apple devices with AI-generated Metal kernels
8 months ago
- #AI
- #Performance
- #PyTorch
- AI生成的金属内核将苹果设备上的PyTorch推理性能提升了87%
- 前沿模型(Anthropic、DeepSeek、OpenAI)被用于生成优化的GPU内核
- 该方法无需内核工程专业知识且可即时生效
- 部分优化实现了10-100倍加速,其中一个案例显示出9000倍的性能提升
- 采用了代理集群方法——由多个模型生成内核并筛选最优方案
- 添加CUDA参考代码和分析上下文信息后,内核性能得到进一步提升
- 中位加速比为1.35倍,几何平均加速比达到1.87倍
- 该技术可扩展至ROCm、CUDA和SYCL等其他平台