Hasty Briefsbeta

双语

SparseLoCo: Communication-Efficient LLM Training

9 months ago

#Machine Learning
#Communication Efficiency
#Large Language Models

SparseLoCo是一种面向大语言模型(LLM)的高通信效率训练算法
该算法采用Top-k稀疏化与量化技术，可实现极致压缩比(1-3%稀疏度，2-bit量化精度)
通过误差反馈结合激进稀疏化策略，可在本地近似计算外部动量项
稀疏聚合操作能有效提升模型性能表现
在通信受限的LLM训练场景下，SparseLoCo优于全精度DiLoCo方案
该方法显著降低通信频率与带宽需求，尤其有利于跨数据中心链路传输