Hasty Briefsbeta

双语

Byte Latent Transformer: Patches Scale Better Than Tokens

a year ago

#natural language processing
#transformer models
#machine learning

介绍字节潜在变换器(BLT)——一种在性能上媲美基于分词的LLM架构的字节级大语言模型
BLT根据下一字节熵值将字节编码为动态大小的数据块，从而提高效率和鲁棒性
通过FLOP受控的规模扩展研究(最高达80亿参数和4T训练字节)证明了字节级模型的可行性
通过动态选择长数据块处理可预测数据，展示了训练和推理效率的提升
与基于分词的模型相比，在推理能力和长尾泛化方面展现出质的提升
在固定推理成本下，BLT通过增大数据块和模型规模，比基于分词的模型更具扩展优势