Lossless LLM 3x Throughput Increase by LMCache
a year ago
- #LLM
- #vLLM
- #KV Cache
- LMCache是一个LLM服务引擎扩展,旨在降低首令牌生成时间(TTFT)并提升吞吐量,特别适用于长上下文场景。
- 它通过将可复用文本的KV缓存存储在不同层级(GPU/CPU内存/本地磁盘),实现跨服务引擎实例的缓存复用,从而节省GPU算力并降低用户响应延迟。
- 与vLLM集成后,在多轮QA和RAG等场景中可实现3-10倍的延迟优化与GPU算力节省。
- 核心特性包括:高性能CPU KV缓存卸载、解耦式预填充、P2P KV缓存共享,以及对非前缀KV缓存的稳定支持。
- 已接入vLLM生产级技术栈生态,提供完整的用户文档和开发者文档。
- 支持通过pip安装,可与最新版vLLM无缝集成。
- 每周二举行社区会议(太平洋时间上午9点与傍晚6:30交替进行)。
- 欢迎贡献与合作,详见CONTRIBUTING.md文件说明。
- 学术使用时请引用LMCache相关研究论文。
- 采用Apache 2.0开源协议授权。