Hasty Briefsbeta

双语

Compiling LLMs into a MegaKernel: A Path to Low-Latency Inference

a year ago
  • #GPU
  • #LLM
  • #compiler
  • 名为Mirage Persistent Kernel(MPK)的编译器将LLM推理转换为单个超级内核,延迟降低1.2-6.7倍。
  • MPK将跨层和跨GPU的计算与通信融合为单一GPU内核,消除启动开销并实现流水线化。
  • 该编译器生成细粒度任务图以优化执行,通过任务和事件管理依赖关系与同步。
  • MPK运行时在超级内核内执行任务图,利用工作线程和调度器SM实现高效任务执行与调度。
  • 未来工作包括支持新GPU架构、动态负载(如MoE模型)和高级调度策略。
  • MPK已开源,旨在以最小人工成本简化高性能LLM推理。