Hierarchical Autoregressive Modeling for Memory-Efficient Language Generation
4 months ago
- #Language Generation
- #Machine Learning
- #Efficiency
- PHOTON提出了一种分层自回归模型,用于实现高效语言生成。
- 它用垂直、多分辨率上下文访问取代了扁平化的令牌扫描机制。
- PHOTON通过维护潜在表征的层级结构获得更优性能。
- 实验结果表明,在吞吐量与生成质量的权衡上,PHOTON优于基于Transformer的模型。
- PHOTON能减少键值缓存流量,使单位内存吞吐量最高提升1000倍。