Hasty Briefsbeta

双语

Ministral 3 – pruning via Cascade Distillation

4 months ago
  • #language-models
  • #machine-learning
  • #distillation
  • 推出Ministral 3系列——专为计算和内存受限场景设计的高效参数密集型语言模型家族
  • 提供三种规格:30亿/80亿/140亿参数,每个规格包含基础版、指令微调版和推理优化版三种变体
  • 采用级联蒸馏技术,通过迭代剪枝与持续蒸馏训练相结合的方法构建模型
  • 具备图像理解能力,并以Apache 2.0开源协议发布