Network

Network Configuration for vLLM Deployment: Load Balancing, TLS Termination, and WebSocket Support

2024 年第四季度，中国 AI 推理市场迎来关键转折点：据中国信通院《人工智能发展报告（2024）》统计，国内大模型 API 调用量季度环比增长 210%，其中流式推理请求占比已超过 68%。与此同时，vLLM 作为开源推理引擎的标杆项目，在 GitHub 上累计获得超过 45,000 星标，其部署过程中的网络…

2024 年第四季度，中国 AI 推理市场迎来关键转折点：据中国信通院《人工智能发展报告（2024）》统计，国内大模型 API 调用量季度环比增长 210%，其中流式推理请求占比已超过 68%。与此同时，vLLM 作为开源推理引擎的标杆项目，在 GitHub 上累计获得超过 45,000 星标，其部署过程中的网络配置——尤其是负载均衡、TLS 终止和 WebSocket 支持——正成为 MLOps 团队从实验环境迈向生产环境的头号瓶颈。根据 Gartner 2024 年《AI 基础设施运维报告》，超过 52% 的模型部署故障与网络层配置不当直接相关，而非模型本身的质量问题。本文将针对中国大陆工程师在阿里云、腾讯云及海外 AWS/GCP 环境下的实操痛点，提供一套可复用的网络配置方案，涵盖延迟优化、吞吐调参和安全加固三大维度。

负载均衡策略：从轮询到自适应路由

负载均衡是 vLLM 生产部署的第一道关卡。vLLM 原生支持连续批处理（Continuous Batching），这意味着每个 GPU 节点上的请求队列状态动态变化，传统轮询算法容易导致部分节点过载而其他节点闲置。

基于队列深度的自适应分发

推荐使用 Nginx Plus 或 Envoy 的加权最少连接算法，并配合 vLLM 暴露的 /health 端点实时获取节点队列深度。实测数据显示，在 4 节点 A100-80G 集群上，自适应分发比轮询算法降低了 37% 的 P99 延迟（来源：vLLM 官方 Benchmark 2024）。配置示例：在 Nginx upstream 中设置 least_conn 并启用 zone 共享内存，使所有 worker 进程共享连接状态。

中国云环境下的会话保持

国内公有云负载均衡器（如阿里云 SLB、腾讯云 CLB）默认使用四层转发，但 vLLM 的流式推理依赖长连接。建议关闭会话保持，因为 vLLM 的无状态设计允许任意节点处理任意请求。若必须开启，使用 cookie insert 模式而非源 IP 模式，避免移动网络下 NAT 网关导致的流量倾斜。

TLS 终止：性能与合规的平衡点

TLS 终止在跨境部署场景中尤为关键。vLLM 本身不处理 TLS，需要在反向代理层完成。中国境内部署时，需同时满足《网络安全法》的数据加密要求和国内 CA 证书合规。

硬件加速与协议选择

在海外云（如 AWS）上，推荐使用 ALB 或 NLB 的 TLS 终止，利用 AWS Nitro 芯片实现硬件卸载。在中国云上，腾讯云 CLB 支持 TLS 1.3 终止，延迟仅增加 1.2ms（来源：腾讯云 2024 年负载均衡白皮书）。避免在 vLLM 容器内直接配置证书，因为 Python 层的 TLS 处理会额外增加 8-15ms 的 P99 延迟。

证书管理与自动续期

使用 cert-manager + Let’s Encrypt 自动签发证书，但注意中国境内部分运营商（如江苏电信）会拦截 Let’s Encrypt 的 OCSP 请求。替代方案：使用阿里云 SSL 证书服务，支持自动部署到 SLB，续期周期为 90 天。对于跨境场景，部分团队会使用 NordVPN 跨境访问等工具解决证书验证链的海外回源问题，确保 OCSP stapling 正常工作。

WebSocket 支持：流式推理的网络基石

WebSocket 支持是 vLLM 流式输出的核心依赖。vLLM 的 /v1/chat/completions API 在设置 stream=true 时，底层使用 Server-Sent Events（SSE），但 SSE 本质上是长连接 HTTP 流，与 WebSocket 不同。然而，生产环境中的反向代理和负载均衡器必须正确配置长连接超时。

代理层超时参数调优

Nginx 配置中，必须将 proxy_read_timeout 设置为 600 秒以上，因为大模型推理可能持续 2-5 分钟。WebSocket 升级头的传递也需显式声明：在 location 块中添加 proxy_set_header Upgrade $http_upgrade 和 proxy_set_header Connection "upgrade"。实测表明，未配置 WebSocket 升级头时，流式输出会在 65 秒后自动断开（来源：vLLM GitHub Issue #3421 2024）。

中国云负载均衡器的特殊处理

阿里云 SLB 的四层 TCP 监听默认支持长连接，但七层 HTTP 监听会在 60 秒后断开空闲连接。解决方案：使用 四层监听（TCP:8000） 而非七层监听，并在后端 Nginx 中完成 HTTP 协议解析。腾讯云 CLB 的四层监听可配置 keepalive_timeout 为 900 秒，直接适配 vLLM 推理场景。

网络拓扑设计：单点 vs 多区域部署

网络拓扑直接影响推理延迟和成本。对于中国用户，需区分境内纯内网部署和跨境混合部署两种模式。

内网单点部署（推荐起步）

在阿里云同一 VPC 内，使用 内网 SLB + ECS GPU 实例，所有流量走内网，延迟控制在 0.5ms 以内。vLLM 的 API 端口（默认 8000）仅绑定内网 IP，避免公网暴露。此时无需 TLS，因为内网流量默认受 VPC 网络 ACL 保护。

跨境多区域部署

对于需要服务海外用户的场景，使用 AWS Global Accelerator 或阿里云全球加速 GA，将流量就近接入。注意：vLLM 的推理节点应部署在用户所在区域，而非模型训练区域。例如，服务东南亚用户时，优先使用新加坡节点而非美西节点，可降低 120-180ms 的跨洋延迟（来源：AWS 2024 年全球基础设施延迟报告）。

性能压测与参数调优

性能压测是验证网络配置是否正确的唯一标准。推荐使用 wrk2 或 ghz 工具模拟流式请求。

关键指标与目标值

P99 首 Token 延迟：应低于 500ms，超过 1000ms 说明网络层存在瓶颈
吞吐量：单节点 A100-80G 应达到 200-300 请求/秒（QPS），低于 150 QPS 需检查负载均衡配置
连接数：Nginx worker_connections 应设置为 4096 以上，避免 Too many open files 错误

常见瓶颈排查

如果压测中发现 CPU 使用率在负载均衡器上达到 100%，但 GPU 利用率不到 50%，说明 负载均衡层成为瓶颈。解决方案：将 Nginx 升级为多 worker 模式（worker_processes auto），并启用 epoll 事件驱动。对于中国云环境，直接使用云厂商的四层负载均衡器（如阿里云 SLB 四层模式），其转发性能可达 1000 万并发连接。

安全加固：防止推理 API 滥用

安全加固是生产部署不可忽视的环节。vLLM API 默认无认证，直接暴露可能导致巨额算力费用。

认证与限流

在反向代理层添加 API Key 验证，使用 Nginx 的 auth_request 模块或 OpenResty 的 Lua 脚本。限流方面，使用 limit_req_zone 对每个 API Key 限制为 10 请求/秒。对于中国云环境，阿里云 WAF 可直接集成到 SLB 前端，提供 OAuth 2.0 认证和 DDoS 防护。

网络隔离

将 vLLM 节点部署在 私有子网 中，仅允许负载均衡器所在的子网访问。使用安全组规则限制入口流量，例如阿里云安全组只放行 SLB 的 VPC 网段。对于敏感模型，开启 vLLM 的 --enable-lora 参数时，需额外配置 LoRA 权重的传输加密。

FAQ

Q1：vLLM 部署必须用 WebSocket 吗？

不需要。vLLM 的流式推理基于 SSE（Server-Sent Events），本质是 HTTP 长连接，并非 WebSocket。但反向代理必须正确配置长连接超时（建议 600 秒以上），否则流式输出会在 60-65 秒后中断。

Q2：中国云部署 vLLM 应该用四层还是七层负载均衡？

推荐使用四层 TCP 负载均衡。七层 HTTP 负载均衡器（如阿里云 SLB 七层模式）默认空闲超时 60 秒，不适合 vLLM 的长推理任务。四层模式可配置超时到 900 秒，且转发性能更高。

Q3：TLS 终止应该在负载均衡器还是 vLLM 容器内完成？

应该在负载均衡器（如 Nginx、阿里云 SLB）上完成。vLLM 容器内处理 TLS 会增加 8-15ms 的 P99 延迟，且证书管理复杂。负载均衡器层可硬件加速 TLS 卸载，延迟仅增加 1-2ms。

参考资料

中国信通院 2024 《人工智能发展报告》
Gartner 2024 《AI 基础设施运维报告》
vLLM 官方 Benchmark 2024 GitHub Repository
腾讯云 2024 年负载均衡白皮书
AWS 2024 年全球基础设施延迟报告