Hasty Briefsbeta

双语

Lossless LLM 3x Throughput Increase by LMCache

a year ago
  • #LLM
  • #vLLM
  • #KV Cache
  • LMCache是一个LLM服务引擎扩展,旨在降低首令牌生成时间(TTFT)并提升吞吐量,特别适用于长上下文场景。
  • 它通过将可复用文本的KV缓存存储在不同层级(GPU/CPU内存/本地磁盘),实现跨服务引擎实例的缓存复用,从而节省GPU算力并降低用户响应延迟。
  • 与vLLM集成后,在多轮QA和RAG等场景中可实现3-10倍的延迟优化与GPU算力节省。
  • 核心特性包括:高性能CPU KV缓存卸载、解耦式预填充、P2P KV缓存共享,以及对非前缀KV缓存的稳定支持。
  • 已接入vLLM生产级技术栈生态,提供完整的用户文档和开发者文档。
  • 支持通过pip安装,可与最新版vLLM无缝集成。
  • 每周二举行社区会议(太平洋时间上午9点与傍晚6:30交替进行)。
  • 欢迎贡献与合作,详见CONTRIBUTING.md文件说明。
  • 学术使用时请引用LMCache相关研究论文。
  • 采用Apache 2.0开源协议授权。