Hasty Briefsbeta

双语

70% Size, 100% Accuracy: Lossless LLM Compression via Dynamic-Length Float

a year ago

#Model Compression
#Machine Learning
#GPU Inference

推出动态长度浮点数(DFloat11)——面向大语言模型的无损压缩框架
在保持逐比特输出一致性的前提下，将大模型体积压缩30%
基于权重频率的熵编码实现动态长度编码
集成定制GPU内核实现高效在线解压
相比替代方案，令牌生成吞吐量提升1.9-38.8倍
在固定GPU显存条件下，上下文长度扩展5.3-13.17倍
支持Llama-3.1-405B等超大模型在8x80GB GPU集群上的无损推理