Hasty Briefsbeta

双语

Tokasaurus: An LLM Inference Engine for High-Throughput Workloads

a year ago
  • #inference-engine
  • #LLM
  • #high-throughput
  • Tokasaurus是一款专为高吞吐量工作负载优化的新型LLM推理引擎。
  • 它通过最小化CPU开销并采用动态Hydragen分组技术处理共享前缀,在小模型上表现卓越。
  • 对于大模型,Tokasaurus支持配备NVLink的GPU进行异步张量并行,无NVLink的GPU则采用流水线并行方案。
  • 在侧重吞吐量的基准测试中,Tokasaurus性能可超越vLLM和SGLang达3倍。
  • 核心优化包括自适应CPU管理和动态前缀识别技术。
  • Tokasaurus已在GitHub和PyPI发布,支持Llama-3和Qwen-2系列模型。
  • 基准测试显示吞吐量显著提升,在共享前缀场景下尤为突出。
  • 特别鸣谢Prime Intellect和Together AI提供的算力支持。