Hasty Briefsbeta

双语

Open Weights Isn't Open Training

2 months ago

#machine-learning
#model-training
#open-source

开源机器学习基础设施往往存在隐藏的缺陷和效率低下的问题，特别是对于大型模型而言。
在尝试对1T+参数的模型（Kimi-K2-Thinking）进行后训练时，暴露出HuggingFace和LLaMA-Factory等现有工具的多个问题。
关键问题包括压缩速度慢、GPU内存分配不均，以及由于量化权重导致的LoRA训练不兼容。
解决方案涉及手动修复，如跳过不必要的压缩、调整GPU内存分配，以及修改前向传递以处理反量化操作。
尽管最终使模型得以训练，但性能未达最优，这突显了开源基础设施在大型模型训练方面的挑战。
这一经历强调了开源ML生态系统中需要更优质、更可靠工具的必要性。