Byte Latent Transformer: Patches Scale Better Than Tokens
a year ago
- #natural language processing
- #transformer models
- #machine learning
- 介绍字节潜在变换器(BLT)——一种在性能上媲美基于分词的LLM架构的字节级大语言模型
- BLT根据下一字节熵值将字节编码为动态大小的数据块,从而提高效率和鲁棒性
- 通过FLOP受控的规模扩展研究(最高达80亿参数和4T训练字节)证明了字节级模型的可行性
- 通过动态选择长数据块处理可预测数据,展示了训练和推理效率的提升
- 与基于分词的模型相比,在推理能力和长尾泛化方面展现出质的提升
- 在固定推理成本下,BLT通过增大数据块和模型规模,比基于分词的模型更具扩展优势