The bitter lesson is coming for tokenization
a year ago
- #tokenization
- #machine-learning
- #transformers
- 《苦涩的教训》强调应使用能充分利用算力和数据的通用方法,而非特定领域的手工定制方法。
- 分词(尤其是字节对编码BPE)已成为Transformer模型的瓶颈,导致效率低下及'故障标记'等衍生问题。
- 分词的核心作用是通过压缩字节表征来降低计算复杂度,但往往难以在压缩粒度与计算效率间取得最优平衡。
- 纯字节级模型(如ByT5和MambaByte)展现了去除分词环节的潜力,但面临算力消耗增加、训练时间延长等挑战。
- Byte Latent Transformer(BLT)等新型架构尝试端到端学习分词策略,在提升性能与扩展性的同时降低推理浮点运算量。
- BLT采用基于熵阈值的动态分块机制,可实现计算资源的自适应分配,并更有效处理分布外数据。
- 在算力受限场景下,BLT在字符级任务上显著优于子词级模型,并展现出更优的扩展曲线。
- 未来研究方向包括:分块模块的端到端集成、BLT在多模态任务的扩展应用,以及大语境中动态分块边界等挑战的解决。