Hasty Briefsbeta

双语

Tokasaurus: An LLM Inference Engine for High-Throughput Workloads

a year ago

#inference-engine
#LLM
#high-throughput

Tokasaurus是一款专为高吞吐量工作负载优化的新型LLM推理引擎。
它通过最小化CPU开销并采用动态Hydragen分组技术处理共享前缀，在小模型上表现卓越。
对于大模型，Tokasaurus支持配备NVLink的GPU进行异步张量并行，无NVLink的GPU则采用流水线并行方案。
在侧重吞吐量的基准测试中，Tokasaurus性能可超越vLLM和SGLang达3倍。
核心优化包括自适应CPU管理和动态前缀识别技术。
Tokasaurus已在GitHub和PyPI发布，支持Llama-3和Qwen-2系列模型。
基准测试显示吞吐量显著提升，在共享前缀场景下尤为突出。
特别鸣谢Prime Intellect和Together AI提供的算力支持。