Apple taught an LLM to predict tokens up to 5x faster in math and coding tasks
9 months ago
- #AI
- #LLM
- #Apple
- 苹果公司研究提出'多令牌预测'(MTP)框架,可在保持输出质量的同时加速大语言模型响应
- 传统大语言模型逐令牌生成文本,这种自回归解码方式导致速度缓慢
- MTP通过提示中的特殊'掩码'令牌,使模型能一次性预测多个令牌
- 该模型会推测后续词汇,并通过标准自回归解码进行验证,若猜测失败则回退
- 使用Tulu3-8B模型测试显示:常规任务加速2-3倍,编程/数学等可预测领域最高达5倍
- 得益于'门控LoRA适配'技术,生成质量未见下降