Hasty Briefsbeta

双语

Compiling LLMs into a MegaKernel: A Path to Low-Latency Inference

a year ago

#GPU
#LLM
#compiler

名为Mirage Persistent Kernel（MPK）的编译器将LLM推理转换为单个超级内核，延迟降低1.2-6.7倍。
MPK将跨层和跨GPU的计算与通信融合为单一GPU内核，消除启动开销并实现流水线化。
该编译器生成细粒度任务图以优化执行，通过任务和事件管理依赖关系与同步。
MPK运行时在超级内核内执行任务图，利用工作线程和调度器SM实现高效任务执行与调度。
未来工作包括支持新GPU架构、动态负载（如MoE模型）和高级调度策略。
MPK已开源，旨在以最小人工成本简化高性能LLM推理。