Hasty Briefsbeta

双语

DeepSeek-TNG-R1T2-Chimera

a year ago

#DeepSeek
#AI
#Chimera

DeepSeek-TNG-R1T2-Chimera 是一个新模型，是原始 DeepSeek R1T Chimera 的继任者。
它采用专家组装方法构建，融合了三个父模型：R1-0528、R1 和 V3-0324。
修复了原始 R1T Chimera 中存在的 <think> 标记一致性问题。
在智能与输出长度的平衡点上表现更优，比 R1 快 20%，在 GPQA 和 AIME-24 等基准测试中更智能。
推荐作为 R1 的直接替代品，是比 R1-0528 更经济的选择，通常优于 R1T，除非需要 R1T 的特定特性。
由于受 R1 父模型影响，不推荐用于函数调用密集型应用。
基准测试现包括 AIME24、AIME25 和 GPQA-Diamond，显示 R1 与 R1T Chimera 之间的分数差距更大。
架构基于 DeepSeek-MoE 的 Transformer 语言模型，发布于 2025-07-02。
欧盟用户需遵守 2025 年 8 月 2 日生效的《欧盟人工智能法案》指南，否则应停止使用该模型。
鼓励通过电子邮件或 X.com 提供反馈，并提供了学术引用的详细信息。