Hasty Briefsbeta

双语

llm-d, Kubernetes native distributed inference

a year ago

#LLM
#AI-inference
#Kubernetes

llm-d 是一个 Kubernetes 原生的高性能分布式大语言模型推理框架。
它为生成式 AI 部署提供模块化、高性能的端到端服务解决方案。
大语言模型推理具有请求缓慢、非均匀且昂贵的特点，这使得标准横向扩展模式效果欠佳。
关键优化包括 KV 缓存感知路由、解耦式服务部署和专业化副本协调机制。
llm-d 采用 vLLM、Kubernetes 和推理网关（IGW）构建其架构。
核心功能包含前缀路由、KV 缓存感知路由、P/D 解耦架构和变体自动扩缩容。
性能测试显示相较基线方案，TTFT（首字节时间）和 QPS（每秒查询数）有显著提升。
该项目已开源，欢迎 AI 工程师和研究人员参与贡献。