Show HN: Run Qwen3-Next-80B on 8GB GPU at 1tok/2s throughput
5 months ago
- #Python
- #Inference
- #LLM
- oLLM 是一个轻量级 Python 库,基于 Huggingface Transformers 和 PyTorch 构建,专为大上下文 LLM 推理设计。
- 支持在约200美元消费级GPU(8GB显存)上运行100k上下文的模型,如 gpt-oss-20B、qwen3-next-80B 和 Llama-3.1-8B-Instruct。
- 最新更新包括:支持 qwen3-next-80B 模型、为 Llama3 添加 flash-attention2 支持、优化 gpt-oss-20B 的显存占用。
- 采用多项技术:从SSD加载权重、将KV缓存卸载至SSD、FlashAttention-2 注意力机制、分块MLP处理。
- 典型应用场景:合同分析、医学文献摘要、大型日志处理、历史聊天记录分析。
- 支持的NVIDIA GPU架构:安培(Ampere)、艾达·洛芙莱斯(Ada Lovelace)、霍普(Hopper)及更新型号。
- 支持pip或源码安装,可选venv/conda环境配置。
- 提供带磁盘缓存和流式处理功能的模型推理代码示例。
- 如需模型支持请联系我们。