Hasty Briefsbeta

双语

Show HN: Speculative Decoding from Scratch in PyTorch (2.8x CPU Speedup)

6 months ago

#LLM
#PyTorch
#optimization

大模型推理优化引擎通过推测式解码实现2-3倍加速
采用PyTorch框架并手动实现推测采样算法
使用小型草案模型预测token，并与大型目标模型并行验证
在零质量损失前提下实现2.83倍推理加速
最佳草案长度(γ)为3-4，平衡加速比与接受率
可预测文本接受率更高(~85%) vs 创意文本(~65%)
验证步骤确保输出分布符合标准自回归采样
包含详细环境配置说明、使用示例和性能基准测试
支持不同模型组合及参数调优以实现最佳性能
开放贡献入口，特别欢迎基准测试和新颖草案模型策略