DeepSeek-TNG-R1T2-Chimera
a year ago
- #DeepSeek
- #AI
- #Chimera
- DeepSeek-TNG-R1T2-Chimera 是一个新模型,是原始 DeepSeek R1T Chimera 的继任者。
- 它采用专家组装方法构建,融合了三个父模型:R1-0528、R1 和 V3-0324。
- 修复了原始 R1T Chimera 中存在的 <think> 标记一致性问题。
- 在智能与输出长度的平衡点上表现更优,比 R1 快 20%,在 GPQA 和 AIME-24 等基准测试中更智能。
- 推荐作为 R1 的直接替代品,是比 R1-0528 更经济的选择,通常优于 R1T,除非需要 R1T 的特定特性。
- 由于受 R1 父模型影响,不推荐用于函数调用密集型应用。
- 基准测试现包括 AIME24、AIME25 和 GPQA-Diamond,显示 R1 与 R1T Chimera 之间的分数差距更大。
- 架构基于 DeepSeek-MoE 的 Transformer 语言模型,发布于 2025-07-02。
- 欧盟用户需遵守 2025 年 8 月 2 日生效的《欧盟人工智能法案》指南,否则应停止使用该模型。
- 鼓励通过电子邮件或 X.com 提供反馈,并提供了学术引用的详细信息。