Hasty Briefsbeta

双语

Show HN: Tokenflood – simulate arbitrary loads on instruction-tuned LLMs

3 months ago
  • #LLM
  • #load-testing
  • #performance
  • Tokenflood是一款面向指令调优大语言模型的负载测试工具,无需特定提示/响应数据即可实现任意负载场景模拟
  • 支持自定义提示词长度、前缀长度、输出长度及请求速率来构建工作负载
  • 基于litellm框架开发,兼容litellm支持的所有供应商接口
  • 警告:若在按token计费服务中配置不当可能产生高额费用,请确保测试负载在预算范围内
  • 典型应用场景包括:自托管LLM的负载测试、硬件/量化方案效果评估、托管LLM供应商性能对比
  • 示例图表展示了提示参数变更对延迟的影响(如增加前缀token或减少输出token)
  • 采用启发式测试方法,通过token集合生成输入内容,无需准备具体提示数据
  • 内置安全机制包含:token用量预估、预算限制、错误率监控及预热请求检查
  • 通过pip和vllm完成安装,提供快速启动配置模板
  • 端点配置支持定义目标参数(供应商、模型、基础URL等),适配多种LLM服务商
  • 测试套件可定义多阶段测试,包括请求速率、负载类型及token预算等控制参数
  • 项目接受贡献,提供分支管理、测试规范及PR提交指南