Hasty Briefsbeta

双语

Speeding up PyTorch inference on Apple devices with AI-generated Metal kernels

8 months ago

#AI
#Performance
#PyTorch

AI生成的金属内核将苹果设备上的PyTorch推理性能提升了87%
前沿模型（Anthropic、DeepSeek、OpenAI）被用于生成优化的GPU内核
该方法无需内核工程专业知识且可即时生效
部分优化实现了10-100倍加速，其中一个案例显示出9000倍的性能提升
采用了代理集群方法——由多个模型生成内核并筛选最优方案
添加CUDA参考代码和分析上下文信息后，内核性能得到进一步提升
中位加速比为1.35倍，几何平均加速比达到1.87倍
该技术可扩展至ROCm、CUDA和SYCL等其他平台