Hasty Briefsbeta

双语

Nano-Vllm: Lightweight vLLM implementation built from scratch

a year ago
  • #inference
  • #vLLM
  • #optimization
  • 轻量级vLLM实现,离线推理速度媲美vLLM
  • 可读性强的代码库,约1200行Python代码实现简洁
  • 包含优化套件:前缀缓存、张量并行、Torch编译、CUDA图等
  • 通过pip安装:`pip install git+https://github.com/GeeeekExplorer/nano-vllm.git`
  • 支持手动下载模型权重:使用`huggingface-cli download`命令
  • API接口与vLLM基本一致,仅`LLM.generate`方法有细微差异
  • 提供示例用法(`example.py`)和性能测试(`bench.py`)
  • 已在RTX 4070笔记本(8GB显存)上测试,使用Qwen3-0.6B模型
  • 性能测试显示Nano-vLLM吞吐量优于vLLM(1,434.13 tokens/s vs 1,361.84 tokens/s)