Show HN: Run Qwen3-Next-80B on 8GB GPU at 1tok/2s throughput

8 months ago

oLLM 是一个轻量级 Python 库，基于 Huggingface Transformers 和 PyTorch 构建，专为大上下文 LLM 推理设计。
支持在约200美元消费级GPU（8GB显存）上运行100k上下文的模型，如 gpt-oss-20B、qwen3-next-80B 和 Llama-3.1-8B-Instruct。
最新更新包括：支持 qwen3-next-80B 模型、为 Llama3 添加 flash-attention2 支持、优化 gpt-oss-20B 的显存占用。
采用多项技术：从SSD加载权重、将KV缓存卸载至SSD、FlashAttention-2 注意力机制、分块MLP处理。
典型应用场景：合同分析、医学文献摘要、大型日志处理、历史聊天记录分析。
支持的NVIDIA GPU架构：安培（Ampere）、艾达·洛芙莱斯（Ada Lovelace）、霍普（Hopper）及更新型号。
支持pip或源码安装，可选venv/conda环境配置。
提供带磁盘缓存和流式处理功能的模型推理代码示例。
如需模型支持请联系我们。

Hasty Briefsbeta