Hasty Briefsbeta

双语

DeepSeek-TNG-R1T2-Chimera

a year ago
  • #DeepSeek
  • #AI
  • #Chimera
  • DeepSeek-TNG-R1T2-Chimera 是一个新模型,是原始 DeepSeek R1T Chimera 的继任者。
  • 它采用专家组装方法构建,融合了三个父模型:R1-0528、R1 和 V3-0324。
  • 修复了原始 R1T Chimera 中存在的 <think> 标记一致性问题。
  • 在智能与输出长度的平衡点上表现更优,比 R1 快 20%,在 GPQA 和 AIME-24 等基准测试中更智能。
  • 推荐作为 R1 的直接替代品,是比 R1-0528 更经济的选择,通常优于 R1T,除非需要 R1T 的特定特性。
  • 由于受 R1 父模型影响,不推荐用于函数调用密集型应用。
  • 基准测试现包括 AIME24、AIME25 和 GPQA-Diamond,显示 R1 与 R1T Chimera 之间的分数差距更大。
  • 架构基于 DeepSeek-MoE 的 Transformer 语言模型,发布于 2025-07-02。
  • 欧盟用户需遵守 2025 年 8 月 2 日生效的《欧盟人工智能法案》指南,否则应停止使用该模型。
  • 鼓励通过电子邮件或 X.com 提供反馈,并提供了学术引用的详细信息。