VibeThinker-1.5B
3 months ago
- #AI
- #Machine Learning
- #Reasoning Models
- VibeThinker-1.5B是一个拥有15亿参数的稠密模型,挑战了小模型缺乏强大推理能力的传统认知。
- 采用创新的'频谱到信号原则(SSP)'后训练方法。
- 性能超越闭源模型如Magistral Medium和Claude Opus 4,并匹敌开源模型GPT OSS-20B Medium。
- 在数学基准测试AIME24、AIME25和HMMT25上超越参数量400倍的DeepSeek R1模型。
- 超高效:仅用15亿参数就在数学和编程任务中达到最先进性能。
- 创新方法包括'两阶段多样性探索蒸馏'和'最大熵引导策略优化(MGPO)'。
- 成本效益高:后训练仅花费7800美元,而竞争对手需29.4万至53.5万美元。
- 模型权重和技术报告已开源,可在Hugging Face和ModelScope平台获取。
- 推荐使用特定参数设置解决竞赛类数学和编程问题。
- 附赠transformers库的模型调用代码片段。