Hasty Briefsbeta

双语

SMLL: Using 200MB of Neural Network to Save 400 Bytes

3 months ago

#neural-networks
#machine-learning
#compression

SMLL压缩技术使用200MB的神经网络，实现了比gzip高10倍的文本压缩率
该方法将大语言模型与算术编码相结合，逼近压缩的理论极限
压缩比因内容类型而异，其中LLM生成文本效果最佳（达14.96倍）
随着文本长度增加，LLM能积累更丰富的上下文，从而提升压缩效果
由于神经网络推理的计算成本，SMLL比gzip慢约10,000倍
模型大小、速度与压缩效率的权衡取决于具体使用场景
研究揭示了压缩与智能的关联——压缩效率反映模型困惑度
适用场景包括存储成本高于计算成本的用例，但不适用于HTTP响应等高速需求
未来可探究LLM在陌生文本上是否优于简单查找表，进一步探索压缩与智能的关系