Hasty Briefsbeta

双语

Predicting the Order of Upcoming Tokens Improves Language Modeling

9 months ago

#Token Prediction
#Machine Learning
#Language Modeling

多令牌预测(MTP)作为辅助目标被提出用于改进语言模型训练中的下一令牌预测(NTP)，但效果提升不稳定
令牌顺序预测(TOP)被引入作为替代方案，通过排序学习损失训练模型根据邻近度对即将出现的令牌进行排序
与MTP需要多个transformer层相比，TOP仅需增加单个解嵌入层
使用NTP、MTP和TOP目标预训练了3.4亿、18亿和70亿参数的模型
在八个标准NLP基准测试中，TOP整体表现优于NTP和MTP，且该优势在模型规模扩大时依然保持