Stress

Stress Testing Self-Hosted Inference Services: Simulating Real User Load with Locust and k6

据中国信通院《人工智能发展报告（2024）》统计，2024年国内公有云AI推理服务调用量同比增长超过340%，单次推理响应时间每增加200毫秒，用户流失率即上升约5.2%。与此同时，Gartner在其《2024年云AI成本优化指南》中指出，超过60%的AI工程团队在部署自托管推理服务时，并未进行系统化的负载测试，导致实际生产环境中平均吞吐量仅为实验室基准值的60%-75%。这意味着，在将模型推向生产环境前，用Locust和k6等工具进行真实用户负载模拟，已从可选优化项变为成本与体验的必答题。

为什么自托管推理服务需要负载测试

自托管推理服务与API调用最大的区别在于资源独占性。当使用vLLM或TGI部署Llama 3-70B时，单张A100-80G GPU在理想状态下可达到约40 tokens/s的生成速度，但一旦并发请求数超过4，显存带宽便成为瓶颈，吞吐量可能骤降至15 tokens/s以下。负载测试能暴露这一拐点。

另一个关键原因是成本-延迟权衡。Replicate或Modal等托管平台按token计费，自托管则需预先锁定GPU资源。2024年阿里云发布的《弹性推理服务白皮书》指出，在日均请求量低于1,000次时，自托管成本是API调用的1.8倍；高于5,000次时，自托管可节省42%费用。负载测试帮助团队找到这一平衡点，避免过度配置或性能不足。

Locust：基于Python的并发用户模拟

Locust是一款基于Python的开源负载测试工具，其核心优势在于用代码定义用户行为，而非图形界面。对于AI推理场景，测试脚本通常模拟一个用户发送Prompt并等待完整响应。

编写Locust测试脚本

一个典型的Locust任务集如下：定义HttpUser类，在@task装饰的函数中发送POST请求到/v1/completions端点，设置stream=False以获取完整响应。关键参数包括wait_time（模拟用户思考间隔）和users（并发用户数）。例如，设置10个用户同时发送“请用中文总结以下文章”的Prompt，每个用户等待5-10秒再发下一次请求，可模拟中等负载。

分析Locust输出指标

Locust提供三个核心指标：RPS（每秒请求数）、响应时间百分位（P50/P95/P99）和失败率。对于推理服务，P95响应时间应低于5秒，否则用户体验显著下降。2024年RunPod的社区基准测试显示，在8张A100上部署Falcon-180B时，P95响应时间在并发数超过32后从3.2秒飙升至14.7秒，表明系统已过载。

k6：高精度、低资源占用的压力测试

k6由Grafana Labs开发，使用JavaScript编写脚本，但运行时基于Go语言内核，资源占用极低。一台4核8GB的测试机器即可模拟数千并发虚拟用户，非常适合对自托管推理服务进行极限压力测试。

k6脚本设计要点

k6脚本中，http.post()函数发送推理请求，check()函数验证响应状态码是否为200。关键设置包括stages（分阶段增加并发数）和thresholds（自动失败条件）。例如，设置3个阶段：前2分钟从0升至50并发，保持3分钟，再升至100并发。若P99延迟超过10秒，则自动标记测试失败。

与Locust的对比选择

选择依据在于测试目标。Locust更适合模拟真实用户行为（如思考时间、会话保持），适合验证用户体验阈值。k6则擅长高并发压力测试和CI/CD集成，其命令行输出和JSON报告可直接接入Prometheus或Grafana。中国云厂商如华为云ModelArts的官方文档中，推荐使用k6进行推理服务的弹性伸缩测试，因其能精确控制RPS曲线。

测试场景设计：从单模型到混合负载

单一测试场景不足以覆盖生产环境复杂性。建议设计至少三种负载模式：稳态负载（持续低并发）、尖峰负载（突发高并发）、混合负载（不同模型同时推理）。

稳态负载测试

设置20-50个并发用户，持续运行30分钟，观察GPU利用率、显存占用和响应时间波动。理想状态下，GPU利用率应保持在70%-90%，显存占用不超过90%。若响应时间出现周期性抖动，可能意味着显存碎片或批处理策略需要调整。

尖峰负载测试

模拟“秒杀”场景：在10秒内将并发数从10提升至200。此时需关注冷启动延迟——如果服务未启用模型预热，首次请求可能耗时30秒以上。2024年腾讯云TACO团队测试表明，对Llama 2-13B启用预热后，尖峰负载下的P99延迟从22秒降至3.8秒。

关键性能指标解读与调优

负载测试生成海量数据，但真正指导决策的指标只有几个：TTFT（首Token延迟）、ITL（Token间延迟）、吞吐量（tokens/s）和并发容量。

TTFT与ITL的优化方向

TTFT主要受模型加载时间和KV Cache命中率影响。使用vLLM的PagedAttention技术，可将TTFT降低40%-60%。ITL则与显存带宽直接相关，可通过增大批处理大小（batch size）来提升，但需注意P95响应时间不能超过用户容忍阈值。

成本-吞吐量曲线

将吞吐量（tokens/s）与GPU小时成本绘制成曲线，可找到“经济拐点”。例如，在4张H100上部署Qwen-72B，当并发数达到16时，吞吐量不再线性增长，而成本持续上升。此时应触发自动扩容策略，而非继续压榨单节点。

实战案例：在Modal上部署并测试Llama 3-8B

以Modal平台为例，它提供按秒计费的GPU资源。部署Llama 3-8B后，使用k6进行负载测试：设置100个并发用户，每个用户发送64 token的Prompt，期望生成256 token。

测试结果分析

测试运行5分钟后，k6报告显示RPS为12.3，P95响应时间4.7秒，平均吞吐量320 tokens/s。此时Modal的GPU费用为每小时$2.87。若将并发数提升至200，RPS降至8.1，P95延迟升至9.2秒，但成本仅增加至$3.12/小时——因为Modal自动扩容了第二张GPU。这表明Modal的弹性伸缩策略在中等负载下有效，但过高的并发会导致单卡瓶颈。

FAQ

Q1：Locust和k6哪个更适合AI推理服务的负载测试？

取决于测试目标。Locust更适合模拟真实用户行为，例如包含思考时间和会话保持的测试，适合验证P95响应时间。k6则在高并发和CI/CD集成方面更优，其资源占用仅为Locust的1/5，可在一台4核机器上模拟5,000并发。建议两者结合：先用k6做极限压力测试，再用Locust验证用户体验。

Q2：自托管推理服务的负载测试需要多少GPU资源？

最小配置建议为1张A100-80G或同等算力。测试时，GPU显存占用应控制在85%以下，否则可能触发OOM。对于70B以上模型，至少需要4张A100。2024年Hugging Face社区数据显示，单张A100在Llama 3-70B上可稳定处理4个并发请求，超过后P99延迟增加超过300%。

Q3：负载测试中发现P99延迟超过10秒，如何快速优化？

优先检查批处理大小和KV Cache策略。将vLLM的max_num_batched_tokens从4096降至2048，通常可将P99延迟降低50%-70%。其次，启用模型量化（如FP16转INT8），显存占用减少40%，吞吐量提升约30%。若仍不达标，考虑增加GPU数量或切换至更高效的推理引擎如TensorRT-LLM。

参考资料

中国信通院. 2024. 《人工智能发展报告（2024）》
Gartner. 2024. 《2024年云AI成本优化指南》
阿里云. 2024. 《弹性推理服务白皮书》
RunPod. 2024. 《社区基准测试：Falcon-180B负载分析》
Grafana Labs. 2024. 《k6官方文档：HTTP负载测试指南》