Hasty Briefsbeta

双语

VibeThinker-1.5B

6 months ago

#AI
#Machine Learning
#Reasoning Models

VibeThinker-1.5B是一个拥有15亿参数的稠密模型，挑战了小模型缺乏强大推理能力的传统认知。
采用创新的'频谱到信号原则(SSP)'后训练方法。
性能超越闭源模型如Magistral Medium和Claude Opus 4，并匹敌开源模型GPT OSS-20B Medium。
在数学基准测试AIME24、AIME25和HMMT25上超越参数量400倍的DeepSeek R1模型。
超高效：仅用15亿参数就在数学和编程任务中达到最先进性能。
创新方法包括'两阶段多样性探索蒸馏'和'最大熵引导策略优化(MGPO)'。
成本效益高：后训练仅花费7800美元，而竞争对手需29.4万至53.5万美元。
模型权重和技术报告已开源，可在Hugging Face和ModelScope平台获取。
推荐使用特定参数设置解决竞赛类数学和编程问题。
附赠transformers库的模型调用代码片段。