Hasty Briefsbeta

双语

The bitter lesson is coming for tokenization

a year ago

#tokenization
#machine-learning
#transformers

《苦涩的教训》强调应使用能充分利用算力和数据的通用方法，而非特定领域的手工定制方法。
分词（尤其是字节对编码BPE）已成为Transformer模型的瓶颈，导致效率低下及'故障标记'等衍生问题。
分词的核心作用是通过压缩字节表征来降低计算复杂度，但往往难以在压缩粒度与计算效率间取得最优平衡。
纯字节级模型（如ByT5和MambaByte）展现了去除分词环节的潜力，但面临算力消耗增加、训练时间延长等挑战。
Byte Latent Transformer（BLT）等新型架构尝试端到端学习分词策略，在提升性能与扩展性的同时降低推理浮点运算量。
BLT采用基于熵阈值的动态分块机制，可实现计算资源的自适应分配，并更有效处理分布外数据。
在算力受限场景下，BLT在字符级任务上显著优于子词级模型，并展现出更优的扩展曲线。
未来研究方向包括：分块模块的端到端集成、BLT在多模态任务的扩展应用，以及大语境中动态分块边界等挑战的解决。