Tokasaurus: An LLM Inference Engine for High-Throughput Workloads
a year ago
- #inference-engine
- #LLM
- #high-throughput
- Tokasaurus是一款专为高吞吐量工作负载优化的新型LLM推理引擎。
- 它通过最小化CPU开销并采用动态Hydragen分组技术处理共享前缀,在小模型上表现卓越。
- 对于大模型,Tokasaurus支持配备NVLink的GPU进行异步张量并行,无NVLink的GPU则采用流水线并行方案。
- 在侧重吞吐量的基准测试中,Tokasaurus性能可超越vLLM和SGLang达3倍。
- 核心优化包括自适应CPU管理和动态前缀识别技术。
- Tokasaurus已在GitHub和PyPI发布,支持Llama-3和Qwen-2系列模型。
- 基准测试显示吞吐量显著提升,在共享前缀场景下尤为突出。
- 特别鸣谢Prime Intellect和Together AI提供的算力支持。