Hasty Briefsbeta

双语

Apple taught an LLM to predict tokens up to 5x faster in math and coding tasks

9 months ago

#AI
#LLM
#Apple

苹果公司研究提出'多令牌预测'(MTP)框架，可在保持输出质量的同时加速大语言模型响应
传统大语言模型逐令牌生成文本，这种自回归解码方式导致速度缓慢
MTP通过提示中的特殊'掩码'令牌，使模型能一次性预测多个令牌
该模型会推测后续词汇，并通过标准自回归解码进行验证，若猜测失败则回退
使用Tulu3-8B模型测试显示：常规任务加速2-3倍，编程/数学等可预测领域最高达5倍
得益于'门控LoRA适配'技术，生成质量未见下降