Hasty Briefsbeta

双语

Speeding up PyTorch inference on Apple devices with AI-generated Metal kernels

8 months ago
  • #AI
  • #Performance
  • #PyTorch
  • AI生成的金属内核将苹果设备上的PyTorch推理性能提升了87%
  • 前沿模型(Anthropic、DeepSeek、OpenAI)被用于生成优化的GPU内核
  • 该方法无需内核工程专业知识且可即时生效
  • 部分优化实现了10-100倍加速,其中一个案例显示出9000倍的性能提升
  • 采用了代理集群方法——由多个模型生成内核并筛选最优方案
  • 添加CUDA参考代码和分析上下文信息后,内核性能得到进一步提升
  • 中位加速比为1.35倍,几何平均加速比达到1.87倍
  • 该技术可扩展至ROCm、CUDA和SYCL等其他平台