Smollm3: Smol, multilingual, long-context reasoner LLM
10 months ago
- #AI
- #Language Models
- #Machine Learning
- SmolLM3是一个具有竞争力的完全开源3B参数模型,其性能超越Llama-3.2-3B和Qwen2.5-3B,并能与更大的4B模型保持竞争水平。
- 该模型支持6种语言的多语言能力(英语、法语、西班牙语、德语、意大利语、葡萄牙语),并通过NoPE和YaRN技术实现长达128k的上下文处理。
- SmolLM3采用双模式推理系统(/think思考模式与/no_think非思考模式),允许用户自由切换推理输出与非推理输出。
- 训练采用三阶段预训练方案,动态调整数据混合比例(网页/代码/数学),总训练量达11.2万亿token,实现效率与性能的最优化。
- 模型架构包含分组查询注意力(GQA)、长上下文专用NoPE技术,以及文档内掩码机制以确保训练稳定性。
- 训练后增强包括:针对推理/非推理模式的监督微调(SFT)、基于锚定偏好优化(APO)的对齐技术,以及通过模型融合恢复长上下文性能。
- 评估显示SmolLM3在知识、推理、数学和代码基准测试中全面领先其他3B模型,并展现强大的多语言和长上下文处理能力。
- 支持工具调用和智能体应用,提供本地部署指南和模式切换的详细操作说明。
- 完整公开训练方案、数据集和配置参数,以促进社区复现与改进。