Text classification with Python 3.14's ZSTD module
3 months ago
- #Python
- #Zstandard
- #Text Classification
- Python 3.14引入了`compression.zstd`模块,实现了Facebook的Zstandard(Zstd)压缩算法。
- Zstd支持增量压缩,使其成为通过压缩进行文本分类的理想选择。
- 该方法利用压缩长度来近似柯尔莫哥洛夫复杂度,这一概念在2023年的一篇论文中被重新探讨。
- Zstd的增量API允许通过为每个类别重建压缩器来实现高效的文本分类。
- 实现了一个`ZstdClassifier`类,它根据类别特定压缩器产生的最小压缩输出来对文本进行分类。
- 可以调整窗口大小、压缩级别和重建频率等参数以获得更好的性能和准确性。
- 在20个新闻组数据集上的基准测试显示,该方法在2秒内达到了91%的准确率,优于之前基于LZW的方法。
- 与TF-IDF+逻辑回归基线的比较显示,虽然准确率略低,但执行速度更快,具有竞争力。
- 基于Zstd的分类器因其简单性和可维护性,成为某些应用场景中有吸引力的选择。