Hasty Briefsbeta

双语

SparseLoCo: Communication-Efficient LLM Training

9 months ago
  • #Machine Learning
  • #Communication Efficiency
  • #Large Language Models
  • SparseLoCo是一种面向大语言模型(LLM)的高通信效率训练算法
  • 该算法采用Top-k稀疏化与量化技术,可实现极致压缩比(1-3%稀疏度,2-bit量化精度)
  • 通过误差反馈结合激进稀疏化策略,可在本地近似计算外部动量项
  • 稀疏聚合操作能有效提升模型性能表现
  • 在通信受限的LLM训练场景下,SparseLoCo优于全精度DiLoCo方案
  • 该方法显著降低通信频率与带宽需求,尤其有利于跨数据中心链路传输