VLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention
10 months ago
- #PagedAttention
- #LLM
- #AI Serving
- vLLM是一个用于快速LLM推理和服务的开源库,采用PagedAttention技术实现高效内存管理。
- PagedAttention通过将KV缓存分区为块,将内存浪费降至4%以下,与HuggingFace Transformers相比吞吐量提升高达24倍。
- PagedAttention中的内存共享机制降低了复杂采样算法的开销,使吞吐量提升达2.2倍。
- vLLM已部署于Chatbot Arena和Vicuna Demo平台,每日处理峰值请求达6万次,运营成本降低50%。
- vLLM安装使用简便,支持离线推理和在线服务,并提供与OpenAI API兼容的接口。