Distillation Makes AI Models Smaller and Cheaper
10 months ago
- #Distillation
- #AI
- #Machine Learning
- 深度求索公司的R1聊天机器人因以更低算力成本匹敌顶级AI模型而引发关注,导致西方科技公司股价下跌
- 有指控称深度求索通过蒸馏技术从OpenAI专有模型中获取知识,但需注意蒸馏本是AI领域的常规工具
- 知识蒸馏技术源自2015年谷歌Geoffrey Hinton团队论文,最初用于简化集成模型
- 该技术利用大型'教师模型'的'暗知识'来高效训练小型'学生模型'
- 随着AI模型日益庞大昂贵,蒸馏技术被谷歌、OpenAI等企业广泛采用
- 最新应用案例包括训练思维链推理模型,如NovaSky的Sky-T1以低成本实现优异性能