vLLM 部署的 Pro

vLLM 部署的 Prometheus Exporter 配置：暴露哪些指标，如何设置告警

根据中国信息通信研究院《人工智能发展报告（2024）》统计，截至2024年第三季度，国内已有超过62%的AI企业将推理服务部署在生产环境，其中vLLM凭借其PagedAttention和连续批处理机制成为LLM推理的首选框架。然而，在实际运营中，超过73%的团队表示缺乏对推理服务**可观测性**的精细化配置，导致…

根据中国信息通信研究院《人工智能发展报告（2024）》统计，截至2024年第三季度，国内已有超过62%的AI企业将推理服务部署在生产环境，其中vLLM凭借其PagedAttention和连续批处理机制成为LLM推理的首选框架。然而，在实际运营中，超过73%的团队表示缺乏对推理服务可观测性的精细化配置，导致故障响应延迟平均超过8分钟。vLLM内置的Prometheus Exporter正是解决这一痛点的关键组件——它能够暴露从请求延迟到GPU显存压力的数十项核心指标，配合告警规则即可将MTTR压缩至2分钟以内。本文将基于vLLM 0.6.3版本，详细拆解Exporter的配置路径、关键指标含义以及告警规则的最佳实践，帮助团队构建从“能部署”到“能监控”的完整闭环。

启用 Prometheus Exporter 的两种路径

vLLM 提供两种方式激活 Prometheus Exporter：通过启动参数 --enable-metrics 或直接设置环境变量 VLLM_ENABLE_METRICS=1。两种方式等价，但推荐在生产环境中使用环境变量方式，避免启动命令过长。

参数启动法

在启动 vLLM 服务时附加参数：

python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-2-7b-chat-hf \
  --enable-metrics \
  --metrics-port 8001

此方式会在 0.0.0.0:8001 暴露 /metrics 端点。若使用 Docker 部署，需确保 --metrics-port 对应的端口已映射到宿主机。

环境变量法

在启动脚本中预先设置：

export VLLM_ENABLE_METRICS=1
python -m vllm.entrypoints.openai.api_server

此时 Exporter 默认绑定至 API 服务端口（通常是 8000）的 /metrics 路径。若需修改端口，仍需配合 --metrics-port。建议在 Kubernetes 环境中使用环境变量，便于 ConfigMap 统一管理。

核心指标分类与语义解析

vLLM 暴露的指标按功能可划分为请求性能、显存状态和调度效率三大类。每个指标均带有 model_name 标签，允许多模型实例共存时按模型聚合查询。

请求延迟与吞吐量

vllm:request_prompt_tokens：每次请求的输入 token 数，直方图类型。用于判断用户输入长度分布，辅助设置 max_model_len。
vllm:request_generation_tokens：每次请求的输出 token 数，直方图类型。结合 vllm:request_success 可计算平均输出长度。
vllm:request_time：请求从入队到完成的总耗时（秒），直方图类型。P99 值若超过 5 秒（根据 Google SRE 手册 2023 年建议），需检查模型或硬件瓶颈。

GPU 显存与利用率

vllm:gpu_cache_usage：当前 KV cache 占用的显存比例（0-1）。当该值持续高于 0.85 时，触发扩容或降低 max_num_seqs 的告警。
vllm:gpu_memory_used：已分配的 GPU 显存总量（字节）。可与 nvidia_smi 指标交叉验证，排查显存泄漏。
vllm:num_requests_running：当前正在执行推理的请求数。若长期低于 max_num_seqs 的 30%，说明资源利用率不足。

告警规则配置实战

基于 Prometheus 的 alerting_rules.yml，可以构建三层告警体系：故障告警（服务不可用）、性能告警（延迟或吞吐异常）、资源告警（显存或 GPU 过载）。以下为经过生产验证的规则示例。

故障告警：服务完全不可用

groups:
  - name: vllm_availability
    rules:
      - alert: VLLMServiceDown
        expr: up{job="vllm"} == 0
        for: 1m
        annotations:
          summary: "vLLM 服务 {{ $labels.instance }} 已停止响应"

此规则依赖 Prometheus 的 up 指标，当 Exporter 端点连续 1 分钟无响应时触发。需确保 job 标签与 Prometheus 配置中的 scrape_configs 一致。

性能告警：P99 延迟超标

      - alert: HighRequestLatency
        expr: histogram_quantile(0.99, rate(vllm:request_time_bucket[5m])) > 5
        for: 2m
        annotations:
          summary: "P99 请求延迟超过 5 秒（当前 {{ $value | humanizeDuration }}）"

histogram_quantile 函数计算过去 5 分钟内的 P99 延迟。阈值 5 秒参考了 NVIDIA Triton Inference Server 的官方推荐值（NVIDIA 2024，Triton Inference Server Best Practices）。若频繁触发，应检查是否因并发数过高导致排队。

资源告警：显存压力过高

      - alert: GPUCachePressure
        expr: vllm:gpu_cache_usage > 0.85
        for: 3m
        annotations:
          summary: "GPU KV cache 使用率 {{ $value | humanizePercentage }}，超过 85%"

持续 3 分钟超过 85% 意味着推理请求可能因显存不足而被拒绝。此时可考虑增加 --gpu-memory-utilization 参数（默认 0.9）或扩容 GPU 实例。

与 Grafana 仪表盘集成

将 Prometheus 作为数据源接入 Grafana 后，可以快速构建 vLLM 专属监控仪表盘。推荐导入社区模板 ID 18680（vLLM Official Dashboard），该模板由 vLLM 团队维护，包含请求速率、延迟分布、显存使用和调度器状态四个核心面板。

关键面板配置要点

请求速率面板：使用 rate(vllm:request_success_total[1m]) 计算每秒请求数（RPS）。若 RPS 低于预期，需检查上游负载均衡器配置。
延迟热力图：通过 vllm:request_time_bucket 构建热力图，直观展示 P50/P90/P99 随时间的变化趋势。热力图可帮助发现周期性延迟抖动，例如每日 10:00-11:00 的高峰期。
调度器状态：vllm:num_requests_waiting 指标显示当前等待队列长度。当该值持续大于 0 时，说明后端处理能力已饱和。

多实例场景下的指标聚合

当使用 Kubernetes 部署多个 vLLM 副本时，单个 Pod 的指标无法反映整体状态。需要通过 Prometheus 联邦或 Thanos 进行全局聚合。对于中小规模集群（少于 50 个副本），推荐使用 Prometheus 的 record 规则创建聚合指标。

聚合规则示例

groups:
  - name: vllm_aggregated
    interval: 30s
    rules:
      - record: vllm:request_success:rate5m
        expr: sum(rate(vllm:request_success_total[5m])) by (model_name)
      - record: vllm:gpu_cache_usage:avg
        expr: avg(vllm:gpu_cache_usage) by (model_name)

record 规则每 30 秒计算一次，将跨副本的指标按模型名称聚合。聚合后的指标可直接用于 Grafana 面板，避免在查询时重复计算，降低 Prometheus 查询压力。对于跨地域部署，建议使用 Thanos 的 --query.partial-response 功能。

安全加固与性能调优

在生产环境中直接暴露 /metrics 端点存在安全风险，攻击者可能通过指标数据推断模型负载规律。建议采取以下加固措施。

身份验证与网络隔离

Basic Auth：在反向代理层（如 Nginx）添加 HTTP 基本认证。配置示例：

location /metrics {
    auth_basic "Prometheus Metrics";
    auth_basic_user_file /etc/nginx/.htpasswd;
    proxy_pass http://127.0.0.1:8001;
}

网络策略：在 Kubernetes 中通过 NetworkPolicy 限制 /metrics 仅允许 Prometheus 的 Pod IP 访问。对于云环境，使用安全组将端口 8001 的入站规则限定为 Prometheus 服务器的 CIDR 范围。

Exporter 性能影响

vLLM 官方基准测试（vLLM 0.6.3，2024）显示，启用 Prometheus Exporter 后，对推理吞吐量的影响小于 0.5%，对 P99 延迟的影响小于 1.2%。因此无需担心 Exporter 本身成为性能瓶颈。但需注意，若 scrape_interval 小于 5 秒，Prometheus 的抓取请求可能增加 Exporter 的 CPU 开销，建议将抓取间隔设置为 10-15 秒。

FAQ

Q1：vLLM Exporter 暴露的指标与 NVIDIA DCGM 指标有什么区别？

vLLM Exporter 聚焦于推理服务层面的指标，如请求延迟、KV cache 使用率、等待队列长度等。DCGM（NVIDIA 2024，Data Center GPU Manager）则提供 GPU 硬件级指标，如温度、功耗、PCIe 带宽。两者互补：DCGM 用于排查硬件故障，vLLM 指标用于诊断推理性能瓶颈。建议同时采集，在 Grafana 中通过 model_name 和 gpu_uuid 标签关联分析。

Q2：如何设置告警避免深夜被频繁的误报吵醒？

使用 Prometheus 的 alertmanager 的 time_intervals 功能。例如，配置工作日的 22:00-08:00 为静默时段，仅对 severity: critical 的告警发送通知。同时为性能告警设置 for: 5m 的持续时间条件，避免瞬时抖动触发告警。推荐将告警阈值设为 P99 延迟的 1.5 倍（例如 7.5 秒），而非直接使用 5 秒。

Q3：vLLM Exporter 是否支持自定义指标？

vLLM 0.6.3 版本未开放自定义指标注册接口。但可以通过 --extra-metrics 参数加载自定义 Python 钩子（hook），在钩子中调用 Prometheus Client 库注册自定义指标。例如，统计特定模型版本的请求错误码分布。自定义钩子需遵循 vLLM 的 AsyncMetricsCollector 接口规范，并注意不要阻塞主推理线程。

参考资料

中国信息通信研究院 2024 《人工智能发展报告（2024）》
Google 2023 《Site Reliability Engineering Workbook》
NVIDIA 2024 《Triton Inference Server Best Practices》
vLLM 2024 《vLLM 0.6.3 Metrics Documentation》
CNCF 2024 《Prometheus Alerting Rules Best Practices》