Hasty Briefsbeta

双语

Show HN: Tokenflood – simulate arbitrary loads on instruction-tuned LLMs

6 months ago

#LLM
#load-testing
#performance

Tokenflood是一款面向指令调优大语言模型的负载测试工具，无需特定提示/响应数据即可实现任意负载场景模拟
支持自定义提示词长度、前缀长度、输出长度及请求速率来构建工作负载
基于litellm框架开发，兼容litellm支持的所有供应商接口
警告：若在按token计费服务中配置不当可能产生高额费用，请确保测试负载在预算范围内
典型应用场景包括：自托管LLM的负载测试、硬件/量化方案效果评估、托管LLM供应商性能对比
示例图表展示了提示参数变更对延迟的影响（如增加前缀token或减少输出token）
采用启发式测试方法，通过token集合生成输入内容，无需准备具体提示数据
内置安全机制包含：token用量预估、预算限制、错误率监控及预热请求检查
通过pip和vllm完成安装，提供快速启动配置模板
端点配置支持定义目标参数（供应商、模型、基础URL等），适配多种LLM服务商
测试套件可定义多阶段测试，包括请求速率、负载类型及token预算等控制参数
项目接受贡献，提供分支管理、测试规范及PR提交指南