Hasty Briefsbeta

双语

The 1B Token Challenge: Finding the Perfect Pre-Training Mix

6 months ago
  • #language-models
  • #machine-learning
  • #data-efficiency
  • 仅用1/10训练数据(10亿token对比100亿token)就实现了GPT-2 90%以上的性能表现
  • 发现最优数据集配比:50%学术PDF+30%DCLM基线数据+20%教育类网页数据
  • 静态混合策略优于课程学习方案,既避免了灾难性失效又提升训练速度
  • 关键发现:验证-泛化权衡、硬截断灾难、数据多样性的核心价值
  • 成功训练7000万参数的GPT-2-70M模型,性能比肩原版GPT-2
  • 基准测试显示性能几乎持平,但训练成本大幅降低(约节省50倍费用)
  • 开源发布预训练数据集及训练好的模型供社区使用