Hasty Briefsbeta

双语

Open Weights Isn't Open Training

2 months ago
  • #machine-learning
  • #model-training
  • #open-source
  • 开源机器学习基础设施往往存在隐藏的缺陷和效率低下的问题,特别是对于大型模型而言。
  • 在尝试对1T+参数的模型(Kimi-K2-Thinking)进行后训练时,暴露出HuggingFace和LLaMA-Factory等现有工具的多个问题。
  • 关键问题包括压缩速度慢、GPU内存分配不均,以及由于量化权重导致的LoRA训练不兼容。
  • 解决方案涉及手动修复,如跳过不必要的压缩、调整GPU内存分配,以及修改前向传递以处理反量化操作。
  • 尽管最终使模型得以训练,但性能未达最优,这突显了开源基础设施在大型模型训练方面的挑战。
  • 这一经历强调了开源ML生态系统中需要更优质、更可靠工具的必要性。