70% Size, 100% Accuracy: Lossless LLM Compression via Dynamic-Length Float
a year ago
- #Model Compression
- #Machine Learning
- #GPU Inference
- 推出动态长度浮点数(DFloat11)——面向大语言模型的无损压缩框架
- 在保持逐比特输出一致性的前提下,将大模型体积压缩30%
- 基于权重频率的熵编码实现动态长度编码
- 集成定制GPU内核实现高效在线解压
- 相比替代方案,令牌生成吞吐量提升1.9-38.8倍
- 在固定GPU显存条件下,上下文长度扩展5.3-13.17倍
- 支持Llama-3.1-405B等超大模型在8x80GB GPU集群上的无损推理