Predicting the Order of Upcoming Tokens Improves Language Modeling
9 months ago
- #Token Prediction
- #Machine Learning
- #Language Modeling
- 多令牌预测(MTP)作为辅助目标被提出用于改进语言模型训练中的下一令牌预测(NTP),但效果提升不稳定
- 令牌顺序预测(TOP)被引入作为替代方案,通过排序学习损失训练模型根据邻近度对即将出现的令牌进行排序
- 与MTP需要多个transformer层相比,TOP仅需增加单个解嵌入层
- 使用NTP、MTP和TOP目标预训练了3.4亿、18亿和70亿参数的模型
- 在八个标准NLP基准测试中,TOP整体表现优于NTP和MTP,且该优势在模型规模扩大时依然保持