Hasty Briefsbeta

双语

Show HN: OpenGraviton – Run 500B+ parameter models on a consumer Mac Mini

2 months ago
  • #AI
  • #Quantization
  • #Hardware
  • 在Mac Mini等最小硬件上运行万亿参数AI模型,采用三元量化、动态稀疏性和MMap层流技术。
  • 特性1:1.58位三元量化,将16位权重压缩为{-1, 0, +1},实现10倍压缩比。
  • 动态稀疏性通过Top-K归零和专家混合路由,每令牌剪枝70%以上计算量。
  • 层流技术通过NVMe SSD直接内存映射权重,突破RAM限制。
  • 推测式解码利用草稿vs目标启发法,生成速度提升2-3倍。
  • TinyLlama-1.1B内存占用从2.05GB(FP16)降至0.24GB(缩小8.4倍)。
  • 140B规模模型仅需64GB RAM(35.0GB),原版280GB会导致内存溢出崩溃。
  • 量化速度达0.98GB/s。
  • 通过GitHub和CLI命令快速部署Graviton核心架构。