Ministral 3 – pruning via Cascade Distillation
4 months ago
- #language-models
- #machine-learning
- #distillation
- 推出Ministral 3系列——专为计算和内存受限场景设计的高效参数密集型语言模型家族
- 提供三种规格:30亿/80亿/140亿参数,每个规格包含基础版、指令微调版和推理优化版三种变体
- 采用级联蒸馏技术,通过迭代剪枝与持续蒸馏训练相结合的方法构建模型
- 具备图像理解能力,并以Apache 2.0开源协议发布