Hasty Briefsbeta

双语

VLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention

10 months ago

#PagedAttention
#LLM
#AI Serving

vLLM是一个用于快速LLM推理和服务的开源库，采用PagedAttention技术实现高效内存管理。
PagedAttention通过将KV缓存分区为块，将内存浪费降至4%以下，与HuggingFace Transformers相比吞吐量提升高达24倍。
PagedAttention中的内存共享机制降低了复杂采样算法的开销，使吞吐量提升达2.2倍。
vLLM已部署于Chatbot Arena和Vicuna Demo平台，每日处理峰值请求达6万次，运营成本降低50%。
vLLM安装使用简便，支持离线推理和在线服务，并提供与OpenAI API兼容的接口。