Hasty Briefsbeta

双语

Pre-training under infinite compute

6 months ago
  • #pre-training
  • #machine-learning
  • #data-efficiency
  • 无限算力下的预训练探索了在固定数据和无限算力条件下优化语言模型预训练的方法。
  • 现有数据受限方法(如增加训练轮次和参数量)最终会导致过拟合。
  • 研究发现最佳权重衰减系数应为常规值的30倍,显著提升正则化效果。
  • 集成独立训练的模型比常规正则化方法能达到更低的损失渐近线。
  • 结合多轮训练、正则化、参数缩放和集成缩放,实现了5.17倍的数据效率提升。
  • 将集成模型蒸馏为小型学生模型可保留83%的集成优势。
  • 这些改进能推广到下游任务,在预训练评估中提升9%,数学任务中实现17.5倍数据效率。
  • 简单的算法改进可为算力充裕的未来实现显著更高效的数据预训练。