Hasty Briefsbeta

双语

Smollm3: Smol, multilingual, long-context reasoner LLM

10 months ago

#AI
#Language Models
#Machine Learning

SmolLM3是一个具有竞争力的完全开源3B参数模型，其性能超越Llama-3.2-3B和Qwen2.5-3B，并能与更大的4B模型保持竞争水平。
该模型支持6种语言的多语言能力（英语、法语、西班牙语、德语、意大利语、葡萄牙语），并通过NoPE和YaRN技术实现长达128k的上下文处理。
SmolLM3采用双模式推理系统（/think思考模式与/no_think非思考模式），允许用户自由切换推理输出与非推理输出。
训练采用三阶段预训练方案，动态调整数据混合比例（网页/代码/数学），总训练量达11.2万亿token，实现效率与性能的最优化。
模型架构包含分组查询注意力(GQA)、长上下文专用NoPE技术，以及文档内掩码机制以确保训练稳定性。
训练后增强包括：针对推理/非推理模式的监督微调(SFT)、基于锚定偏好优化(APO)的对齐技术，以及通过模型融合恢复长上下文性能。
评估显示SmolLM3在知识、推理、数学和代码基准测试中全面领先其他3B模型，并展现强大的多语言和长上下文处理能力。
支持工具调用和智能体应用，提供本地部署指南和模式切换的详细操作说明。
完整公开训练方案、数据集和配置参数，以促进社区复现与改进。