Compiling LLMs into a MegaKernel: A Path to Low-Latency Inference
a year ago
- #GPU
- #LLM
- #compiler
- 名为Mirage Persistent Kernel(MPK)的编译器将LLM推理转换为单个超级内核,延迟降低1.2-6.7倍。
- MPK将跨层和跨GPU的计算与通信融合为单一GPU内核,消除启动开销并实现流水线化。
- 该编译器生成细粒度任务图以优化执行,通过任务和事件管理依赖关系与同步。
- MPK运行时在超级内核内执行任务图,利用工作线程和调度器SM实现高效任务执行与调度。
- 未来工作包括支持新GPU架构、动态负载(如MoE模型)和高级调度策略。
- MPK已开源,旨在以最小人工成本简化高性能LLM推理。