Open Weights Isn't Open Training
2 months ago
- #machine-learning
- #model-training
- #open-source
- 开源机器学习基础设施往往存在隐藏的缺陷和效率低下的问题,特别是对于大型模型而言。
- 在尝试对1T+参数的模型(Kimi-K2-Thinking)进行后训练时,暴露出HuggingFace和LLaMA-Factory等现有工具的多个问题。
- 关键问题包括压缩速度慢、GPU内存分配不均,以及由于量化权重导致的LoRA训练不兼容。
- 解决方案涉及手动修复,如跳过不必要的压缩、调整GPU内存分配,以及修改前向传递以处理反量化操作。
- 尽管最终使模型得以训练,但性能未达最优,这突显了开源基础设施在大型模型训练方面的挑战。
- 这一经历强调了开源ML生态系统中需要更优质、更可靠工具的必要性。