Hasty Briefsbeta

双语

70% Size, 100% Accuracy: Lossless LLM Compression via Dynamic-Length Float

a year ago
  • #Model Compression
  • #Machine Learning
  • #GPU Inference
  • 推出动态长度浮点数(DFloat11)——面向大语言模型的无损压缩框架
  • 在保持逐比特输出一致性的前提下,将大模型体积压缩30%
  • 基于权重频率的熵编码实现动态长度编码
  • 集成定制GPU内核实现高效在线解压
  • 相比替代方案,令牌生成吞吐量提升1.9-38.8倍
  • 在固定GPU显存条件下,上下文长度扩展5.3-13.17倍
  • 支持Llama-3.1-405B等超大模型在8x80GB GPU集群上的无损推理