Show HN: OpenGraviton – Run 500B+ parameter models on a consumer Mac Mini
2 months ago
- #AI
- #Quantization
- #Hardware
- 在Mac Mini等最小硬件上运行万亿参数AI模型,采用三元量化、动态稀疏性和MMap层流技术。
- 特性1:1.58位三元量化,将16位权重压缩为{-1, 0, +1},实现10倍压缩比。
- 动态稀疏性通过Top-K归零和专家混合路由,每令牌剪枝70%以上计算量。
- 层流技术通过NVMe SSD直接内存映射权重,突破RAM限制。
- 推测式解码利用草稿vs目标启发法,生成速度提升2-3倍。
- TinyLlama-1.1B内存占用从2.05GB(FP16)降至0.24GB(缩小8.4倍)。
- 140B规模模型仅需64GB RAM(35.0GB),原版280GB会导致内存溢出崩溃。
- 量化速度达0.98GB/s。
- 通过GitHub和CLI命令快速部署Graviton核心架构。