Hasty Briefsbeta

双语

Nvidia releases 8B model with learned 8x KV cache compression

4 months ago
  • #AI
  • #NVIDIA
  • #Machine Learning
  • Qwen3-8B-DMS-8x是基于Qwen3-8B的衍生模型,采用动态记忆稀疏化技术(DMS)实现推理期间8倍压缩
  • 通过优化KV缓存内存占用,显著提升长文本推理任务中的吞吐量与响应速度
  • 基于NVIDIA许可协议发布,仅限非商业研究及教育用途
  • 具备全球化部署能力与高级推理性能
  • 采用自回归Transformer架构,参数量达82亿
  • 需配合特定软件环境运行(transformers==4.57.3、torch、flash-attn等)
  • 在GPQA Diamond、MMLU-Pro、HumanEval等基准测试中展现竞争力
  • 包含伦理考量条款,倡导负责任AI开发