Hasty Briefsbeta

双语

Apple taught an LLM to predict tokens up to 5x faster in math and coding tasks

9 months ago
  • #AI
  • #LLM
  • #Apple
  • 苹果公司研究提出'多令牌预测'(MTP)框架,可在保持输出质量的同时加速大语言模型响应
  • 传统大语言模型逐令牌生成文本,这种自回归解码方式导致速度缓慢
  • MTP通过提示中的特殊'掩码'令牌,使模型能一次性预测多个令牌
  • 该模型会推测后续词汇,并通过标准自回归解码进行验证,若猜测失败则回退
  • 使用Tulu3-8B模型测试显示:常规任务加速2-3倍,编程/数学等可预测领域最高达5倍
  • 得益于'门控LoRA适配'技术,生成质量未见下降