Hasty Briefsbeta

双语

Lossless LLM 3x Throughput Increase by LMCache

a year ago

#LLM
#vLLM
#KV Cache

LMCache是一个LLM服务引擎扩展，旨在降低首令牌生成时间（TTFT）并提升吞吐量，特别适用于长上下文场景。
它通过将可复用文本的KV缓存存储在不同层级（GPU/CPU内存/本地磁盘），实现跨服务引擎实例的缓存复用，从而节省GPU算力并降低用户响应延迟。
与vLLM集成后，在多轮QA和RAG等场景中可实现3-10倍的延迟优化与GPU算力节省。
核心特性包括：高性能CPU KV缓存卸载、解耦式预填充、P2P KV缓存共享，以及对非前缀KV缓存的稳定支持。
已接入vLLM生产级技术栈生态，提供完整的用户文档和开发者文档。
支持通过pip安装，可与最新版vLLM无缝集成。
每周二举行社区会议（太平洋时间上午9点与傍晚6:30交替进行）。
欢迎贡献与合作，详见CONTRIBUTING.md文件说明。
学术使用时请引用LMCache相关研究论文。
采用Apache 2.0开源协议授权。