Hasty Briefsbeta

双语

Nvidia releases 8B model with learned 8x KV cache compression

4 months ago

#AI
#NVIDIA
#Machine Learning

Qwen3-8B-DMS-8x是基于Qwen3-8B的衍生模型，采用动态记忆稀疏化技术(DMS)实现推理期间8倍压缩
通过优化KV缓存内存占用，显著提升长文本推理任务中的吞吐量与响应速度
基于NVIDIA许可协议发布，仅限非商业研究及教育用途
具备全球化部署能力与高级推理性能
采用自回归Transformer架构，参数量达82亿
需配合特定软件环境运行（transformers==4.57.3、torch、flash-attn等）
在GPQA Diamond、MMLU-Pro、HumanEval等基准测试中展现竞争力
包含伦理考量条款，倡导负责任AI开发