SparseLoCo: Communication-Efficient LLM Training
9 months ago
- #Machine Learning
- #Communication Efficiency
- #Large Language Models
- SparseLoCo是一种面向大语言模型(LLM)的高通信效率训练算法
- 该算法采用Top-k稀疏化与量化技术,可实现极致压缩比(1-3%稀疏度,2-bit量化精度)
- 通过误差反馈结合激进稀疏化策略,可在本地近似计算外部动量项
- 稀疏聚合操作能有效提升模型性能表现
- 在通信受限的LLM训练场景下,SparseLoCo优于全精度DiLoCo方案
- 该方法显著降低通信频率与带宽需求,尤其有利于跨数据中心链路传输