Hasty Briefsbeta

双语

Predicting the Order of Upcoming Tokens Improves Language Modeling

9 months ago
  • #Token Prediction
  • #Machine Learning
  • #Language Modeling
  • 多令牌预测(MTP)作为辅助目标被提出用于改进语言模型训练中的下一令牌预测(NTP),但效果提升不稳定
  • 令牌顺序预测(TOP)被引入作为替代方案,通过排序学习损失训练模型根据邻近度对即将出现的令牌进行排序
  • 与MTP需要多个transformer层相比,TOP仅需增加单个解嵌入层
  • 使用NTP、MTP和TOP目标预训练了3.4亿、18亿和70亿参数的模型
  • 在八个标准NLP基准测试中,TOP整体表现优于NTP和MTP,且该优势在模型规模扩大时依然保持