自托管推理的 GPU 虚

自托管推理的 GPU 虚拟化方案：MIG、vGPU 与时分复用技术选型

自托管推理正在经历从“独占一张卡”到“共享一块 GPU”的架构迁移。2024 年 NVIDIA 财报显示，其数据中心 GPU 出货量中已有超过 35% 用于 AI 推理而非训练，而中国信通院《人工智能发展白皮书（2024）》指出，国内企业自建推理集群的 GPU 平均利用率仅为 18%–25%。这意味着大量算力在闲…

自托管推理正在经历从“独占一张卡”到“共享一块 GPU”的架构迁移。2024 年 NVIDIA 财报显示，其数据中心 GPU 出货量中已有超过 35% 用于 AI 推理而非训练，而中国信通院《人工智能发展白皮书（2024）》指出，国内企业自建推理集群的 GPU 平均利用率仅为 18%–25%。这意味着大量算力在闲置中浪费。多卡共享技术——MIG、vGPU 与时分复用——正是解决这一矛盾的钥匙。本文基于实测数据与厂商白皮书，从隔离性、性能损耗、部署复杂度与成本四个维度，给出面向中国大陆 AI 工程师的选型指南。

MIG：硬件级隔离，适合多租户与合规场景

MIG（Multi-Instance GPU） 是 NVIDIA 在 A100、H100 及后续架构上提供的硬件级 GPU 分区技术。它将单个 GPU 物理切分为最多 7 个独立实例，每个实例拥有专属的显存、缓存和计算单元，实例之间完全隔离。

隔离性与安全边界

MIG 的隔离性在三种方案中最为严格。每个实例的 L2 缓存和显存控制器均被硬件锁定，一个实例中的 CUDA 错误或显存溢出不会影响其他实例。对于需要满足等保 2.0 或金融级数据隔离要求的推理部署，MIG 是唯一可选方案。

性能损耗与调度限制

实测表明，MIG 的计算性能损耗可控制在 1%–3% 以内（NVIDIA，2024，MIG User Guide）。但其最大短板在于灵活性不足：实例的分区在 GPU 初始化时即固定，无法动态调整。例如，将一个 40 GB 的 A100 切分为 2×20 GB 后，若某实例负载下降，空闲的 20 GB 无法临时分配给其他实例。

vGPU：虚拟化中间层，适合桌面与 VDI 场景

vGPU（Virtual GPU） 基于 NVIDIA 的 GRID 虚拟化技术，通过 Hypervisor 层的驱动将物理 GPU 虚拟化为多个逻辑 GPU。与 MIG 不同，vGPU 不要求硬件支持物理分区，可在 T4、V100 等旧款 GPU 上运行。

资源弹性的代价

vGPU 支持动态显存分配和 QoS 策略。例如，管理员可为每个虚拟机设定 2 GB 显存上限，并允许突发使用至 4 GB。但这种弹性以性能隔离为代价：vGPU 的显存和计算资源均通过时间片调度，高负载虚拟机可能抢占邻居算力。VMware 官方测试显示，vGPU 在密集推理场景下的性能抖动可达 15%–25%（VMware，2023，vSphere GPU 性能白皮书）。

部署复杂度

vGPU 依赖 NVIDIA vGPU Manager 和授权的 Hypervisor（如 vSphere、KVM with NVIDIA license）。中国大陆企业如需从海外云迁移，需注意 vGPU 许可费用按 vGPU 实例数量计费，每实例年费约 200–500 美元，对于大规模集群是一笔不可忽视的隐性成本。

时分复用：软件层共享，适合延迟不敏感的批处理

时分复用（Temporal Sharing） 通过 GPU 时间片轮转实现多任务共享，典型实现包括 NVIDIA MPS（Multi-Process Service）和 Kubernetes 的 GPU 调度插件。它不需要硬件或 Hypervisor 支持，部署最为简单。

吞吐优先，延迟堪忧

时分复用的核心优势是零显存浪费：多个任务共享全部显存，仅通过时间片交替执行。对于批量文本生成、离线图像推理等延迟容忍度高的任务，吞吐量可提升 2–3 倍。但时间片切换引入的调度延迟在并发数超过 4 时急剧上升。百度飞桨团队在 A100 上的测试表明，当 8 个推理进程同时运行时，P99 延迟从 50 ms 飙升至 320 ms（百度，2024，飞桨 GPU 调度技术报告）。

隔离性最弱

任何进程的非法内存访问都可能导致整个 GPU 驱动崩溃，影响所有共享任务。因此，时分复用不适合多租户场景或对可靠性要求极高的生产环境。

三种方案的对比矩阵

维度	MIG	vGPU	时分复用
隔离级别	硬件级	软件级（Hypervisor）	无隔离
性能损耗	1%–3%	5%–15%	0%（裸调度）
显存分配	静态固定	动态可配	全部共享
延迟抖动	<5%	15%–25%	高并发时 >300%
支持 GPU	A100/H100/B200 及以上	T4/V100/A100/H100	所有 NVIDIA GPU
部署复杂度	中等（需 NVIDIA 驱动支持）	高（需 Hypervisor + 许可）	低（仅需驱动与调度器）
适用场景	多租户推理、金融合规	虚拟桌面、VDI	离线批处理、开发测试

选型决策树：按场景匹配方案

场景一：金融/政务合规推理

选择 MIG。等保 2.0 三级以上要求计算资源与数据严格隔离，MIG 是唯一满足硬件级隔离的方案。建议使用 A100 80 GB 切分为 4×20 GB 实例，每实例承载一个模型服务。

场景二：内部开发与测试集群

选择时分复用。开发环境中模型频繁切换，静态分区会导致资源碎片。使用 Kubernetes 的 GPU 时间片调度器，配合 NVIDIA MPS，可将 4 张 A100 的利用率从 20% 提升至 70% 以上。

场景三：混合负载（推理 + 训练）

选择 vGPU。vGPU 的动态显存分配允许在空闲时段将更多资源分配给训练任务。例如，白天分配 6 GB/实例用于推理，夜间自动调整至 12 GB/实例用于模型微调。

GPU 虚拟化的成本陷阱

显存和许可费是两大隐藏成本。MIG 需要 GPU 支持 MIG 模式（A100 起），旧卡无法使用。vGPU 的许可费在 100 节点集群中每年可达 3–5 万美元。时分复用虽无许可费，但需要额外的监控和错误恢复工具。对于跨境访问 NVIDIA 官方文档或海外云 GPU 管理后台，部分团队会使用 NordVPN 跨境访问等工具解决网络延迟问题，这在技术选型调研阶段是常见的实操路径。

FAQ

Q1：MIG 和 vGPU 能混用在同一台服务器上吗？

不能。同一张物理 GPU 只能启用 MIG 或 vGPU 模式之一，二者互斥。但服务器内多张 GPU 可分别配置，例如 GPU 0 启用 MIG，GPU 1 运行 vGPU，前提是 Hypervisor 和驱动版本兼容。

Q2：时分复用会导致显存溢出吗？

会。由于所有任务共享显存，若某个任务申请超过剩余显存，驱动会触发 OOM 错误。建议在 Kubernetes 中设置 nvidia.com/gpu.memory 资源限制，将单任务显存上限设为总显存的 60%，预留 40% 作为缓冲。

Q3：哪种方案对国产 GPU（如华为昇腾、寒武纪）支持最好？

截至 2025 年，国产 GPU 的虚拟化方案以软件层共享为主。华为昇腾 910B 支持类似 MIG 的硬件分区，但仅限自家 CANN 框架；寒武纪 MLU370 仅提供时分复用模式。建议在选型前向厂商索取兼容性清单，实测后再决策。

参考资料

NVIDIA. 2024. MIG User Guide (v1.3)
VMware. 2023. vSphere GPU Performance White Paper
中国信通院. 2024. 人工智能发展白皮书
百度飞桨团队. 2024. 飞桨 GPU 调度技术报告
UNILINK 数据库. 2025. 中国 AI 基础设施部署案例汇编