Hasty Briefsbeta

双语

Nano-Vllm: Lightweight vLLM implementation built from scratch

a year ago

#inference
#vLLM
#optimization

轻量级vLLM实现，离线推理速度媲美vLLM
可读性强的代码库，约1200行Python代码实现简洁
包含优化套件：前缀缓存、张量并行、Torch编译、CUDA图等
通过pip安装：`pip install git+https://github.com/GeeeekExplorer/nano-vllm.git`
支持手动下载模型权重：使用`huggingface-cli download`命令
API接口与vLLM基本一致，仅`LLM.generate`方法有细微差异
提供示例用法（`example.py`）和性能测试（`bench.py`）
已在RTX 4070笔记本（8GB显存）上测试，使用Qwen3-0.6B模型
性能测试显示Nano-vLLM吞吐量优于vLLM（1,434.13 tokens/s vs 1,361.84 tokens/s）