llm-d, Kubernetes native distributed inference
a year ago
- #LLM
- #AI-inference
- #Kubernetes
- llm-d 是一个 Kubernetes 原生的高性能分布式大语言模型推理框架。
- 它为生成式 AI 部署提供模块化、高性能的端到端服务解决方案。
- 大语言模型推理具有请求缓慢、非均匀且昂贵的特点,这使得标准横向扩展模式效果欠佳。
- 关键优化包括 KV 缓存感知路由、解耦式服务部署和专业化副本协调机制。
- llm-d 采用 vLLM、Kubernetes 和推理网关(IGW)构建其架构。
- 核心功能包含前缀路由、KV 缓存感知路由、P/D 解耦架构和变体自动扩缩容。
- 性能测试显示相较基线方案,TTFT(首字节时间)和 QPS(每秒查询数)有显著提升。
- 该项目已开源,欢迎 AI 工程师和研究人员参与贡献。