DeepSeek-v3.2-Exp
7 months ago
- #DeepSeek
- #AI
- #Machine Learning
- DeepSeek-V3.2-Exp 是基于 V3.1-Terminus 的最新实验模型。
- 引入 DeepSeek 稀疏注意力(DSA)机制,在长上下文训练和推理中实现更快、更高效的性能。
- 现已在 App、Web 和 API 上线,API 价格降低 50% 以上。
- DSA 提升了长上下文性能并降低计算成本,同时对输出质量影响极小。
- 基准测试显示 V3.2-Exp 与 V3.1-Terminus 表现相近。
- V3.1-Terminus 仍可通过临时 API 使用至 2025 年 10 月 15 日,供对比测试。
- 欢迎通过提供的链接反馈 DSA 使用体验。
- 模型和技术报告已在 Hugging Face 和 GitHub 开源。
- 包含 TileLang 和 CUDA 的关键 GPU 内核,推荐使用 TileLang 进行快速原型开发。