Hasty Briefsbeta

双语

LLM-D: Kubernetes-Native Distributed Inference at Scale

a year ago
  • #AI
  • #OpenSource
  • #Kubernetes
  • CoreWeave、谷歌、IBM研究院、英伟达和红帽联合发起了llm-d开源社区
  • llm-d是面向大语言模型的Kubernetes原生分布式推理服务框架
  • 核心特性包括:vLLM优化推理调度器、基于vLLM的解耦式服务、vLLM解耦前缀缓存、以及变体自动扩缩容
  • 该架构采用分层设计,基于vLLM、Kubernetes和推理网关构建
  • 项目采用社区驱动模式,遵循Apache-2开源协议,开发过程完全开放
  • 支持通过Helm chart一键部署完整方案,也可单独安装组件
  • 社区通过周站会、Slack讨论组和Google Groups进行协作
  • 项目采用Apache 2.0开源协议授权