Hasty Briefsbeta

双语

VibeThinker-1.5B

3 months ago
  • #AI
  • #Machine Learning
  • #Reasoning Models
  • VibeThinker-1.5B是一个拥有15亿参数的稠密模型,挑战了小模型缺乏强大推理能力的传统认知。
  • 采用创新的'频谱到信号原则(SSP)'后训练方法。
  • 性能超越闭源模型如Magistral Medium和Claude Opus 4,并匹敌开源模型GPT OSS-20B Medium。
  • 在数学基准测试AIME24、AIME25和HMMT25上超越参数量400倍的DeepSeek R1模型。
  • 超高效:仅用15亿参数就在数学和编程任务中达到最先进性能。
  • 创新方法包括'两阶段多样性探索蒸馏'和'最大熵引导策略优化(MGPO)'。
  • 成本效益高:后训练仅花费7800美元,而竞争对手需29.4万至53.5万美元。
  • 模型权重和技术报告已开源,可在Hugging Face和ModelScope平台获取。
  • 推荐使用特定参数设置解决竞赛类数学和编程问题。
  • 附赠transformers库的模型调用代码片段。