Hasty Briefsbeta

双语

Byte Latent Transformer: Patches Scale Better Than Tokens

a year ago
  • #natural language processing
  • #transformer models
  • #machine learning
  • 介绍字节潜在变换器(BLT)——一种在性能上媲美基于分词的LLM架构的字节级大语言模型
  • BLT根据下一字节熵值将字节编码为动态大小的数据块,从而提高效率和鲁棒性
  • 通过FLOP受控的规模扩展研究(最高达80亿参数和4T训练字节)证明了字节级模型的可行性
  • 通过动态选择长数据块处理可预测数据,展示了训练和推理效率的提升
  • 与基于分词的模型相比,在推理能力和长尾泛化方面展现出质的提升
  • 在固定推理成本下,BLT通过增大数据块和模型规模,比基于分词的模型更具扩展优势