Nano-Vllm: Lightweight vLLM implementation built from scratch
a year ago
- #inference
- #vLLM
- #optimization
- 轻量级vLLM实现,离线推理速度媲美vLLM
- 可读性强的代码库,约1200行Python代码实现简洁
- 包含优化套件:前缀缓存、张量并行、Torch编译、CUDA图等
- 通过pip安装:`pip install git+https://github.com/GeeeekExplorer/nano-vllm.git`
- 支持手动下载模型权重:使用`huggingface-cli download`命令
- API接口与vLLM基本一致,仅`LLM.generate`方法有细微差异
- 提供示例用法(`example.py`)和性能测试(`bench.py`)
- 已在RTX 4070笔记本(8GB显存)上测试,使用Qwen3-0.6B模型
- 性能测试显示Nano-vLLM吞吐量优于vLLM(1,434.13 tokens/s vs 1,361.84 tokens/s)