Hasty Briefsbeta

双语

Show HN: OpenGraviton – Run 500B+ parameter models on a consumer Mac Mini

2 months ago

#AI
#Quantization
#Hardware

在Mac Mini等最小硬件上运行万亿参数AI模型，采用三元量化、动态稀疏性和MMap层流技术。
特性1：1.58位三元量化，将16位权重压缩为{-1, 0, +1}，实现10倍压缩比。
动态稀疏性通过Top-K归零和专家混合路由，每令牌剪枝70%以上计算量。
层流技术通过NVMe SSD直接内存映射权重，突破RAM限制。
推测式解码利用草稿vs目标启发法，生成速度提升2-3倍。
TinyLlama-1.1B内存占用从2.05GB（FP16）降至0.24GB（缩小8.4倍）。
140B规模模型仅需64GB RAM（35.0GB），原版280GB会导致内存溢出崩溃。
量化速度达0.98GB/s。
通过GitHub和CLI命令快速部署Graviton核心架构。