Hasty Briefsbeta

双语

The 1B Token Challenge: Finding the Perfect Pre-Training Mix

6 months ago

#language-models
#machine-learning
#data-efficiency

仅用1/10训练数据（10亿token对比100亿token）就实现了GPT-2 90%以上的性能表现
发现最优数据集配比：50%学术PDF+30%DCLM基线数据+20%教育类网页数据
静态混合策略优于课程学习方案，既避免了灾难性失效又提升训练速度
关键发现：验证-泛化权衡、硬截断灾难、数据多样性的核心价值
成功训练7000万参数的GPT-2-70M模型，性能比肩原版GPT-2
基准测试显示性能几乎持平，但训练成本大幅降低（约节省50倍费用）
开源发布预训练数据集及训练好的模型供社区使用