Nvidia releases 8B model with learned 8x KV cache compression
4 months ago
- #AI
- #NVIDIA
- #Machine Learning
- Qwen3-8B-DMS-8x是基于Qwen3-8B的衍生模型,采用动态记忆稀疏化技术(DMS)实现推理期间8倍压缩
- 通过优化KV缓存内存占用,显著提升长文本推理任务中的吞吐量与响应速度
- 基于NVIDIA许可协议发布,仅限非商业研究及教育用途
- 具备全球化部署能力与高级推理性能
- 采用自回归Transformer架构,参数量达82亿
- 需配合特定软件环境运行(transformers==4.57.3、torch、flash-attn等)
- 在GPQA Diamond、MMLU-Pro、HumanEval等基准测试中展现竞争力
- 包含伦理考量条款,倡导负责任AI开发