The 1B Token Challenge: Finding the Perfect Pre-Training Mix
6 months ago
- #language-models
- #machine-learning
- #data-efficiency
- 仅用1/10训练数据(10亿token对比100亿token)就实现了GPT-2 90%以上的性能表现
- 发现最优数据集配比:50%学术PDF+30%DCLM基线数据+20%教育类网页数据
- 静态混合策略优于课程学习方案,既避免了灾难性失效又提升训练速度
- 关键发现:验证-泛化权衡、硬截断灾难、数据多样性的核心价值
- 成功训练7000万参数的GPT-2-70M模型,性能比肩原版GPT-2
- 基准测试显示性能几乎持平,但训练成本大幅降低(约节省50倍费用)
- 开源发布预训练数据集及训练好的模型供社区使用