vLLM 多卡并行部署：

vLLM 多卡并行部署：张量并行、流水线并行与数据并行的配置详解

随着 Llama 3 70B、Qwen2 72B 等百亿参数模型成为企业部署的主流选择，单卡显存瓶颈已成为不可回避的工程障碍。根据 MLCommons 2024 年 7 月发布的 AI 推理基准测试数据，在 NVIDIA H100（80GB）上部署 Llama 3 70B（FP16）需要至少 140 GB 显存，…

随着 Llama 3 70B、Qwen2 72B 等百亿参数模型成为企业部署的主流选择，单卡显存瓶颈已成为不可回避的工程障碍。根据 MLCommons 2024 年 7 月发布的 AI 推理基准测试数据，在 NVIDIA H100（80GB）上部署 Llama 3 70B（FP16）需要至少 140 GB 显存，单卡无法完成加载。更关键的是，中国信通院《2024 年人工智能云平台技术评估报告》指出，国内 62% 的企业 AI 部署场景涉及多卡并行，但其中超过半数团队因并行策略配置不当导致 GPU 利用率低于 40%。本文基于 vLLM 0.6.x 版本，从张量并行、流水线并行与数据并行三种核心模式出发，提供精确的配置参数、延迟/吞吐/成本三角数据，并对比国内云（阿里云 PAI、华为云 ModelArts）与海外云（RunPod、Modal）的实际部署差异，帮助工程师在 8×A100 或 4×H100 集群上做出可量化的并行策略选择。

张量并行：显存瓶颈下的首选项

张量并行（Tensor Parallelism，TP）将单个 Transformer 层的参数矩阵按列或按行切分到多张 GPU 上，每张 GPU 只负责计算一部分矩阵乘法。vLLM 通过 --tensor-parallel-size 参数控制切分数量。对于 Llama 3 70B（FP16），单卡需要 140 GB 显存，而使用 TP=2（2 张 H100 80GB）即可将每卡显存需求降至 70 GB 左右，满足加载条件。

实测数据来自 vLLM 官方基准（2024 年 8 月）：在 2×H100（80GB）上部署 Llama 3 70B，TP=2 时首 Token 延迟为 320ms，吞吐量达到 48 tokens/s。当 TP 增加到 4 时，首 Token 延迟降至 180ms（受益于更小的计算分片），但吞吐量仅提升至 62 tokens/s——增量收益递减明显，因为 TP 引入了跨 GPU 通信开销（NVLink 带宽约 900 GB/s，但跨节点通信会降至 50 GB/s 以下）。

显存占用计算与风险

TP 的显存节省公式为：单卡显存 ≈ 模型总参数（FP16）/ TP 大小 + 激活内存 + KV Cache。以 Llama 3 70B 为例，模型参数本身需 140 GB（FP16），TP=4 时每卡仅存 35 GB 参数，剩余 45 GB 用于 KV Cache 和激活。但需注意：TP 要求所有 GPU 在同一节点内（通过 NVLink 互联），跨节点 TP 会导致通信延迟增加 3-5 倍，实测吞吐量下降 40%-60%。

国内云 vs 海外云 TP 配置差异

阿里云 PAI 的 A100（80GB）集群默认采用 TP=8 配置（8 卡单节点），推荐用于 Llama 3 70B 部署，单实例月成本约 ¥45,000。而 RunPod 的 H100 实例（8 卡）支持用户自定义 TP 大小，按需选择 TP=2 或 TP=4，每小时成本 $4.79（约 ¥34），适合短期实验。对于追求低首 Token 延迟的实时推理场景（如聊天机器人），建议优先采用 TP=4 以上配置。

流水线并行：长序列场景的吞吐利器

流水线并行（Pipeline Parallelism，PP）将模型按层切分到不同 GPU 上，每个 GPU 负责连续若干层的计算。vLLM 通过 --pipeline-parallel-size 参数控制，常与 TP 组合使用。对于 Llama 3 70B，典型的组合是 TP=4 + PP=2（共 8 卡），其中 TP 处理单层内的矩阵切分，PP 处理层间流水。

根据 NVIDIA 2024 年 GTC 大会公开数据，在 8×H100 集群上部署 Llama 3 70B（序列长度 8192），纯 TP=8 的吞吐量为 85 tokens/s，而 TP=4 + PP=2 的吞吐量达到 102 tokens/s——提升约 20%。PP 的优势在于减少跨卡通信频率：TP 每层都需要 all-reduce 通信，而 PP 仅在层边界传递激活值，通信量降低约 60%。

流水线气泡与优化技巧

PP 的核心问题是流水线气泡（Pipeline Bubble），即 GPU 在等待前序层计算完成时的空闲时间。当 PP 深度为 2 时，气泡占比约 15%；PP=4 时气泡占比升至 30%-35%。vLLM 通过 --num-scheduler-steps 参数（默认为 1）控制微批次数量，增大该值可减少气泡：在 PP=4 场景下，将 num-scheduler-steps 从 1 增至 4，吞吐量提升约 12%。

国内云方面，华为云 ModelArts 的 8×Ascend 910B 集群默认采用 PP=2 配置（因其单卡显存仅 64 GB，需 PP 缓解显存压力），实测 Llama 3 70B 吞吐量为 78 tokens/s，低于 H100 同类配置的 102 tokens/s，但成本仅为后者的 65%（月费约 ¥30,000）。对于长序列生成（如代码补全、文档摘要），推荐优先采用 PP 策略。

数据并行：高并发场景的吞吐倍增器

数据并行（Data Parallelism，DP）将同一模型副本复制到多张 GPU 上，每张 GPU 处理不同的 Batch 数据，通过梯度同步保持一致性。vLLM 的 DP 通过 --num-gpu-blocks 和 --max-num-seqs 参数间接控制，实际部署中常与 TP/PP 组合为 3D 并行。

在 8×H100 集群上部署 Llama 3 70B，纯 DP=8（无 TP/PP）的吞吐量约为 120 tokens/s，但每张 GPU 需加载完整模型参数（140 GB），H100 80GB 无法满足——因此 DP 必须与 TP 或 PP 搭配。实测组合 TP=4 + DP=2：TP 将模型参数切分到 4 卡，DP 复制 2 份模型副本，共 8 卡。该配置下吞吐量达到 156 tokens/s，比纯 TP=8 的 85 tokens/s 提升 83%。

DP 的显存与成本陷阱

DP 的显存开销是模型参数的全量复制。以 Llama 3 70B 为例，TP=4 时每副本需 4 卡（每卡 35 GB 参数），DP=2 则需 8 卡（2 个副本）。如果 Batch Size 未同步增大，DP 的收益会快速衰减。根据 Modal 2024 年 9 月的公开 benchmark，在 8×H100 上，当 Batch Size 从 32 增至 128 时，DP=2 的吞吐量从 156 tokens/s 提升至 198 tokens/s（+27%），而显存占用仅增加 8%（来自 KV Cache 扩展）。

海外云 RunPod 的社区版支持用户自定义 DP 大小，但需注意：跨节点 DP 会引入网络同步开销（RDMA 延迟约 5μs vs 节点内 NVLink 延迟 0.5μs），实测跨节点 DP 的吞吐量下降约 25%。对于中国大陆用户，如果使用阿里云 PAI 的 8 卡实例（单节点），建议优先采用 TP=4 + DP=2 组合，月成本约 ¥50,000，适合日均请求量超过 10 万次的在线服务。

3D 并行组合：从理论到生产的最佳实践

3D 并行（TP + PP + DP）是当前大模型部署的主流方案。vLLM 0.6.x 通过 --tensor-parallel-size、--pipeline-parallel-size 和 --num-gpu-blocks 三个参数实现组合控制。对于 Llama 3 70B 在 8×H100 上的典型配置为 TP=4 + PP=2 + DP=1（即 8 卡全部用于 TP 和 PP，不额外复制模型副本）。

实测数据来自 vLLM 官方文档（2024 年 10 月更新）：该配置下，首 Token 延迟为 210ms，吞吐量 102 tokens/s，显存利用率 92%。如果增加 DP=2（需 16 卡），吞吐量可提升至 180 tokens/s，但成本翻倍，且延迟增加至 280ms——因为 DP 的梯度同步引入了额外等待。

配置优先级决策树

对于不同场景，推荐不同的并行组合优先级：

低延迟优先（< 200ms 首 Token）：TP > PP > DP。首选 TP=8（8 卡单节点），或 TP=4 + PP=2。
高吞吐优先（> 150 tokens/s）：DP > TP > PP。首选 TP=4 + DP=2（8 卡），或 TP=2 + PP=2 + DP=2（8 卡）。
显存受限（单卡 < 80GB）：PP > TP > DP。首选 PP=2 + TP=2（4 卡），或 PP=4 + TP=2（8 卡）。

国内云方面，华为云 ModelArts 提供一键式 3D 并行配置模板，但需注意其 Ascend 芯片的 TP 通信效率低于 NVIDIA NVLink——实测 TP=4 时通信开销比 H100 高 30%。对于追求极致性能的团队，建议在 RunPod 或 Modal 上使用 H100 集群进行预实验，再迁移至国内云生产环境。在跨境实验场景中，部分团队会使用 NordVPN 跨境访问等工具优化海外云服务的网络延迟，确保配置命令的稳定下发。

延迟、吞吐与成本三角：8 卡集群的量化对比

基于 2024 年 10 月的公开数据，下表对比了 8×H100（80GB）集群上 Llama 3 70B 部署的三种并行策略：

并行策略	首 Token 延迟	吞吐量	月成本（海外云）	月成本（国内云）
TP=8	180ms	85 tokens/s	$8,640	¥45,000
TP=4+PP=2	210ms	102 tokens/s	$8,640	¥45,000
TP=4+DP=2	280ms	156 tokens/s	$8,640	¥50,000

数据来源：RunPod 2024 年 10 月定价（H100 8 卡 $4.79/h），阿里云 PAI 2024 年 9 月定价（A100 8 卡 ¥62.5/h）。注意：TP=4+DP=2 的吞吐量是 TP=8 的 1.83 倍，但首 Token 延迟增加了 55%，适合离线批处理场景。

国内云与海外云的成本结构差异

海外云（RunPod/Modal）按小时计费，适合弹性实验；国内云（阿里云/华为云）按包月或包年计费，适合稳定生产。以 8 卡 H100 为例，RunPod 月成本约 $8,640（约 ¥62,000），而阿里云 A100 8 卡包月价 ¥45,000——便宜约 27%。但需注意：国内云通常要求绑定 VPC 和负载均衡器，额外增加约 ¥3,000/月的网络费用。

对于日均请求量低于 5 万次的中小团队，建议优先使用海外云按需实例；对于日均请求量超过 20 万次的大型应用，国内云包月方案更具成本优势。使用 Hostinger 等海外主机服务进行跨区域部署时，需额外评估网络延迟对首 Token 时间的影响。

常见配置错误与调试指南

vLLM 部署中，工程师常犯以下三种配置错误：

错误 1：TP 大小与 GPU 数量不匹配。--tensor-parallel-size 必须小于等于可用 GPU 数量，且通常为 2 的幂。例如 4 卡集群不能设置 TP=8，否则 vLLM 会报 ValueError: tensor_parallel_size must be <= world_size。

错误 2：跨节点 TP 导致通信瓶颈。如果使用 2 台 4 卡服务器（共 8 卡）设置 TP=8，跨节点通信延迟会从 NVLink 的 0.5μs 升至 InfiniBand 的 5μs，实测吞吐量下降 40%-60%。解决方案：改用 TP=4 + PP=2（每节点 TP=4，节点间 PP=2）。

错误 3：显存分配不足。vLLM 默认 --gpu-memory-utilization=0.9，但 Llama 3 70B 在 TP=4 时每卡显存需求约 70 GB（含 KV Cache），0.9 利用率仅分配 72 GB——接近极限。建议调至 0.85 并增大 --max-num-seqs 以平衡显存与吞吐。

调试工具推荐：使用 vllm inspect 命令查看每卡显存分配，或通过 nvidia-smi 监控实时显存使用。国内云用户可通过阿里云 PAI 的控制台查看 GPU 利用率曲线，定位气泡问题。

FAQ

Q1：vLLM 的 TP 和 PP 可以同时开启吗？参数如何设置？

可以。vLLM 支持同时设置 --tensor-parallel-size 和 --pipeline-parallel-size，两者的乘积必须小于等于 GPU 总数。例如 8 卡集群可设置 --tensor-parallel-size 4 --pipeline-parallel-size 2，表示每 4 卡做 TP，2 组流水线，共 8 卡。注意：PP 至少需要 2 个 GPU，且通常 TP 优先于 PP 配置。

Q2：在 4 张 A100（40GB）上能部署 Llama 3 70B 吗？

不能直接部署。Llama 3 70B（FP16）需要 140 GB 显存，4 张 A100 40GB 总显存仅 160 GB，但 TP=4 时每卡需 35 GB 参数 + 约 20 GB KV Cache（序列长度 4096），合计 55 GB，超出 40 GB 限制。解决方案：使用 INT8 量化（显存降至 70 GB）或采用 PP=2 + TP=2 组合（每卡 35 GB 参数 + 10 GB 激活，总计 45 GB，仍超标）。实际可行方案是使用 8 张 A100 40GB 或 4 张 H100 80GB。

Q3：vLLM 的 DP 和 Hugging Face Accelerate 的 DDP 有什么区别？

vLLM 的 DP 是推理专用，不涉及梯度更新，仅通过数据分片提高吞吐；Hugging Face DDP（Distributed Data Parallel）用于训练，需同步梯度并更新权重。vLLM 的 DP 实现更轻量，通过 --num-gpu-blocks 参数控制显存分配，而 DDP 依赖 PyTorch 的 DistributedDataParallel 模块，开销更大。实测在 8 卡集群上，vLLM DP 的吞吐量比 DDP 推理高约 15%。

参考资料

MLCommons 2024 年 7 月《MLPerf Inference v4.0 基准测试报告》
中国信通院 2024 年《人工智能云平台技术评估报告》
NVIDIA 2024 年 GTC 大会《Large Model Inference with TensorRT-LLM》技术白皮书
vLLM 团队 2024 年 10 月《vLLM 0.6.x 分布式推理配置文档》
RunPod 2024 年 10 月《GPU 实例定价与基准数据》