Show HN: Tokenflood – simulate arbitrary loads on instruction-tuned LLMs
3 months ago
- #LLM
- #load-testing
- #performance
- Tokenflood是一款面向指令调优大语言模型的负载测试工具,无需特定提示/响应数据即可实现任意负载场景模拟
- 支持自定义提示词长度、前缀长度、输出长度及请求速率来构建工作负载
- 基于litellm框架开发,兼容litellm支持的所有供应商接口
- 警告:若在按token计费服务中配置不当可能产生高额费用,请确保测试负载在预算范围内
- 典型应用场景包括:自托管LLM的负载测试、硬件/量化方案效果评估、托管LLM供应商性能对比
- 示例图表展示了提示参数变更对延迟的影响(如增加前缀token或减少输出token)
- 采用启发式测试方法,通过token集合生成输入内容,无需准备具体提示数据
- 内置安全机制包含:token用量预估、预算限制、错误率监控及预热请求检查
- 通过pip和vllm完成安装,提供快速启动配置模板
- 端点配置支持定义目标参数(供应商、模型、基础URL等),适配多种LLM服务商
- 测试套件可定义多阶段测试,包括请求速率、负载类型及token预算等控制参数
- 项目接受贡献,提供分支管理、测试规范及PR提交指南