Container

Container Orchestration for vLLM Deployment: Kubernetes Deployment, Service, and Ingress Configuration Examples

根据中国信通院2024年《人工智能发展白皮书》统计，国内大模型推理部署市场规模已达人民币87.6亿元，其中超过62%的企业选择Kubernetes作为底层编排平台。与此同时，vLLM作为当前吞吐量最高的开源推理引擎（单卡A100下可达每秒处理1200个token），其与K8s的深度集成已成为MLOps团队必须掌握的核心技能。本文提供可直接复用的Kubernetes Deployment、Service和Ingress配置范例，并针对GPU调度、自动扩缩容和网络延迟三个关键维度给出参数级建议。

GPU节点调度与资源声明

vLLM对GPU显存有刚性需求，Kubernetes集群必须通过**节点亲和性（Node Affinity）和资源限制（Resource Limits）**确保推理Pod被调度到正确节点。中国信通院2024年调研显示，约34%的MLOps团队曾因GPU资源声明不准确导致OOM或利用率低于40%。

节点选择器配置

使用nodeSelector或nodeAffinity将Pod绑定到配备NVIDIA A100/H100的节点。推荐在节点上打标签gpu-type: nvidia-a100-80g，并在Deployment spec中引用：

affinity:
  nodeAffinity:
    requiredDuringSchedulingIgnoredDuringExecution:
      nodeSelectorTerms:
      - matchExpressions:
        - key: gpu-type
          operator: In
          values:
          - nvidia-a100-80g

显存与CPU资源声明

vLLM官方推荐每个模型实例预留至少比模型权重多20%的显存。以Llama-3-70B（FP16权重约140GB）为例，需声明nvidia.com/gpu: 2（双卡A100 80GB），同时设置limits.memory: 180Gi防止OOM。CPU核心数建议设为8-16，避免token生成阶段CPU瓶颈。

Service配置与负载均衡策略

Kubernetes Service必须选择ClusterIP类型并在集群内部暴露vLLM的HTTP/gRPC端口。国内云厂商（阿里云、腾讯云）的ACK/TKE集群默认使用iptables模式，但高并发场景下应切换为IPVS模式以降低转发延迟。

端口映射与服务发现

vLLM默认监听8000端口（HTTP）和8001端口（gRPC）。Service配置示例如下：

apiVersion: v1
kind: Service
metadata:
  name: vllm-service
spec:
  selector:
    app: vllm
  ports:
  - name: http
    port: 8000
    targetPort: 8000
  - name: grpc
    port: 8001
    targetPort: 8001
  type: ClusterIP

会话亲和性

对于流式推理（Streaming Inference），建议设置sessionAffinity: ClientIP和sessionAffinityConfig.clientIP.timeoutSeconds: 10800，确保同一用户请求始终路由到相同Pod，避免KV Cache重建开销。该配置在阿里云ACK集群中实测可减少45%的首次token延迟。

Ingress配置与外部访问控制

生产环境中vLLM推理服务需要通过Ingress暴露给客户端。TLS终止和速率限制是Ingress配置的两个关键点。

域名与TLS证书

使用Let’s Encrypt自动签发证书，Ingress配置中绑定域名并指定Secret：

apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: vllm-ingress
  annotations:
    nginx.ingress.kubernetes.io/rewrite-target: /
    nginx.ingress.kubernetes.io/proxy-body-size: "100m"
spec:
  tls:
  - hosts:
    - api.your-model.com
    secretName: vllm-tls
  rules:
  - host: api.your-model.com
    http:
      paths:
      - path: /v1/chat/completions
        pathType: Prefix
        backend:
          service:
            name: vllm-service
            port:
              number: 8000

速率限制与IP白名单

通过Nginx Ingress注解实现单IP每分钟最多30次请求，同时添加nginx.ingress.kubernetes.io/whitelist-source-range限制仅允许公司VPN出口IP访问管理接口。此配置在腾讯云TKE集群中可有效抵御DDoS攻击，实测将异常请求拦截率提升至99.2%。

自动扩缩容（HPA与VPA）

vLLM推理Pod的扩缩容不能仅依赖CPU指标，必须基于GPU利用率或请求队列深度。Kubernetes 1.27+支持自定义指标扩展（Custom Metrics HPA）。

基于GPU利用率的HPA

安装NVIDIA DCGM Exporter后，使用以下HPA配置：

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: vllm-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: vllm-deployment
  minReplicas: 2
  maxReplicas: 10
  metrics:
  - type: Pods
    pods:
      metric:
        name: DCGM_FI_DEV_GPU_UTIL
      target:
        type: AverageValue
        averageValue: 70

垂直扩缩容（VPA）的陷阱

不推荐对vLLM Pod使用VPA。因为vLLM在启动时即锁定显存，动态调整资源限制会导致Pod重建并丢失所有KV Cache。中国移动研究院2024年测试报告指出，VPA在推理场景下导致服务中断概率高达23%。

持久化存储与模型加载优化

模型权重通常存储在对象存储（S3/MinIO）或NFS中，Kubernetes通过CSI驱动挂载到Pod。模型加载速度直接影响Pod启动时间，需针对性优化。

使用PVC挂载模型

创建基于NFS的PersistentVolumeClaim，将模型目录挂载到Pod的/models路径：

apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: model-pvc
spec:
  accessModes:
  - ReadOnlyMany
  resources:
    requests:
      storage: 200Gi

模型缓存与预热

在Deployment中添加InitContainer，预先从S3下载模型到本地emptyDir卷，避免多个Pod同时拉取模型造成网络拥堵。华为云2024年实践案例显示，此方法将Pod启动时间从8分钟缩短至1.2分钟。

健康检查与优雅关闭

vLLM提供/health端点用于存活探针（Liveness Probe），同时需配置优雅关闭（Graceful Shutdown）以完成正在处理的推理请求。

探针配置

livenessProbe:
  httpGet:
    path: /health
    port: 8000
  initialDelaySeconds: 30
  periodSeconds: 10
readinessProbe:
  httpGet:
    path: /health
    port: 8000
  initialDelaySeconds: 5
  periodSeconds: 5

preStop钩子

在Pod被终止前，调用vLLM的/shutdown接口或等待30秒完成当前请求。配置terminationGracePeriodSeconds: 60确保不丢请求。阿里云容器服务团队2024年测试表明，未配置优雅关闭的Pod有约12%的请求被截断。

FAQ

Q1：vLLM部署在Kubernetes上需要多少GPU显存？

以Llama-3-8B（FP16）为例，至少需要16GB显存，建议使用单卡A10（24GB）或A100（40GB/80GB）。70B模型需要双卡A100 80GB或单卡H100 80GB。vLLM官方文档推荐预留比模型权重多20%的显存用于KV Cache。

Q2：Kubernetes集群中vLLM推理延迟能达到多少？

在A100 80GB单卡部署Llama-3-8B时，首token延迟约为80-120ms，后续token生成延迟约15-25ms/token。若使用双卡部署70B模型，首token延迟增至200-350ms，生成延迟约40-60ms/token。网络延迟（Ingress到Service）额外增加5-15ms。

Q3：国内云厂商（阿里云/腾讯云/华为云）的Kubernetes服务是否支持vLLM？

支持。阿里云ACK、腾讯云TKE、华为云CCE均已集成NVIDIA GPU Operator，可自动安装驱动和DCGM Exporter。需注意阿里云ACK默认使用Flannel网络插件，建议切换为Terway以降低延迟；腾讯云TKE需在创建集群时开启“GPU共享”功能。

参考资料

中国信通院 2024年《人工智能发展白皮书》
NVIDIA 2024年《DCGM User Guide》v3.2
阿里云容器服务团队 2024年《GPU推理Pod最佳实践》
华为云 2024年《ModelArts推理部署案例集》
Kubernetes官方文档 2024年《HorizontalPodAutoscaler Walkthrough》