LLM-D: Kubernetes-Native Distributed Inference at Scale
a year ago
- #AI
- #OpenSource
- #Kubernetes
- CoreWeave、谷歌、IBM研究院、英伟达和红帽联合发起了llm-d开源社区
- llm-d是面向大语言模型的Kubernetes原生分布式推理服务框架
- 核心特性包括:vLLM优化推理调度器、基于vLLM的解耦式服务、vLLM解耦前缀缓存、以及变体自动扩缩容
- 该架构采用分层设计,基于vLLM、Kubernetes和推理网关构建
- 项目采用社区驱动模式,遵循Apache-2开源协议,开发过程完全开放
- 支持通过Helm chart一键部署完整方案,也可单独安装组件
- 社区通过周站会、Slack讨论组和Google Groups进行协作
- 项目采用Apache 2.0开源协议授权