Hasty Briefsbeta

双语

DeepSeek-v3.2-Exp

7 months ago
  • #DeepSeek
  • #AI
  • #Machine Learning
  • DeepSeek-V3.2-Exp 是基于 V3.1-Terminus 的最新实验模型。
  • 引入 DeepSeek 稀疏注意力(DSA)机制,在长上下文训练和推理中实现更快、更高效的性能。
  • 现已在 App、Web 和 API 上线,API 价格降低 50% 以上。
  • DSA 提升了长上下文性能并降低计算成本,同时对输出质量影响极小。
  • 基准测试显示 V3.2-Exp 与 V3.1-Terminus 表现相近。
  • V3.1-Terminus 仍可通过临时 API 使用至 2025 年 10 月 15 日,供对比测试。
  • 欢迎通过提供的链接反馈 DSA 使用体验。
  • 模型和技术报告已在 Hugging Face 和 GitHub 开源。
  • 包含 TileLang 和 CUDA 的关键 GPU 内核,推荐使用 TileLang 进行快速原型开发。