DeepSeek-v3.1
9 months ago
- #DeepSeek
- #AI
- #Language Model
- DeepSeek-V3.1 是一个支持思考模式与非思考模式的混合模型。
- 改进包括更智能的工具调用、更高的思考效率以及混合思考模式。
- 该模型通过扩展的长上下文数据(32K 和 128K 阶段)进行训练。
- 支持非思考模式下的工具调用,并为搜索和代码代理提供特定格式。
- 评估显示在通用任务、搜索代理、代码和数学基准测试中表现优异。
- 包含详细的对话模板,适用于思考模式与非思考模式。
- 提供 128K 上下文长度和 370 亿激活参数版本可供下载。
- 包含使用示例和本地运行指南。
- 采用 MIT 许可证,并包含引用说明。