Hasty Briefsbeta

双语

LLM-D: Kubernetes-Native Distributed Inference at Scale

a year ago

#AI
#OpenSource
#Kubernetes

CoreWeave、谷歌、IBM研究院、英伟达和红帽联合发起了llm-d开源社区
llm-d是面向大语言模型的Kubernetes原生分布式推理服务框架
核心特性包括：vLLM优化推理调度器、基于vLLM的解耦式服务、vLLM解耦前缀缓存、以及变体自动扩缩容
该架构采用分层设计，基于vLLM、Kubernetes和推理网关构建
项目采用社区驱动模式，遵循Apache-2开源协议，开发过程完全开放
支持通过Helm chart一键部署完整方案，也可单独安装组件
社区通过周站会、Slack讨论组和Google Groups进行协作
项目采用Apache 2.0开源协议授权