Show HN: Speculative Decoding from Scratch in PyTorch (2.8x CPU Speedup)
3 months ago
- #LLM
- #PyTorch
- #optimization
- 大模型推理优化引擎通过推测式解码实现2-3倍加速
- 采用PyTorch框架并手动实现推测采样算法
- 使用小型草案模型预测token,并与大型目标模型并行验证
- 在零质量损失前提下实现2.83倍推理加速
- 最佳草案长度(γ)为3-4,平衡加速比与接受率
- 可预测文本接受率更高(~85%) vs 创意文本(~65%)
- 验证步骤确保输出分布符合标准自回归采样
- 包含详细环境配置说明、使用示例和性能基准测试
- 支持不同模型组合及参数调优以实现最佳性能
- 开放贡献入口,特别欢迎基准测试和新颖草案模型策略