自托管推理的 GPU 虚
自托管推理的 GPU 虚拟化方案:MIG、vGPU 与时分复用技术选型
自托管推理正在经历从“独占一张卡”到“共享一块 GPU”的架构迁移。2024 年 NVIDIA 财报显示,其数据中心 GPU 出货量中已有超过 35% 用于 AI 推理而非训练,而中国信通院《人工智能发展白皮书(2024)》指出,国内企业自建推理集群的 GPU 平均利用率仅为 18%–25%。这意味着大量算力在闲…
自托管推理正在经历从“独占一张卡”到“共享一块 GPU”的架构迁移。2024 年 NVIDIA 财报显示,其数据中心 GPU 出货量中已有超过 35% 用于 AI 推理而非训练,而中国信通院《人工智能发展白皮书(2024)》指出,国内企业自建推理集群的 GPU 平均利用率仅为 18%–25%。这意味着大量算力在闲置中浪费。多卡共享技术——MIG、vGPU 与时分复用——正是解决这一矛盾的钥匙。本文基于实测数据与厂商白皮书,从隔离性、性能损耗、部署复杂度与成本四个维度,给出面向中国大陆 AI 工程师的选型指南。
MIG:硬件级隔离,适合多租户与合规场景
MIG(Multi-Instance GPU) 是 NVIDIA 在 A100、H100 及后续架构上提供的硬件级 GPU 分区技术。它将单个 GPU 物理切分为最多 7 个独立实例,每个实例拥有专属的显存、缓存和计算单元,实例之间完全隔离。
隔离性与安全边界
MIG 的隔离性在三种方案中最为严格。每个实例的 L2 缓存和显存控制器均被硬件锁定,一个实例中的 CUDA 错误或显存溢出不会影响其他实例。对于需要满足等保 2.0 或金融级数据隔离要求的推理部署,MIG 是唯一可选方案。
性能损耗与调度限制
实测表明,MIG 的计算性能损耗可控制在 1%–3% 以内(NVIDIA,2024,MIG User Guide)。但其最大短板在于灵活性不足:实例的分区在 GPU 初始化时即固定,无法动态调整。例如,将一个 40 GB 的 A100 切分为 2×20 GB 后,若某实例负载下降,空闲的 20 GB 无法临时分配给其他实例。
vGPU:虚拟化中间层,适合桌面与 VDI 场景
vGPU(Virtual GPU) 基于 NVIDIA 的 GRID 虚拟化技术,通过 Hypervisor 层的驱动将物理 GPU 虚拟化为多个逻辑 GPU。与 MIG 不同,vGPU 不要求硬件支持物理分区,可在 T4、V100 等旧款 GPU 上运行。
资源弹性的代价
vGPU 支持动态显存分配和 QoS 策略。例如,管理员可为每个虚拟机设定 2 GB 显存上限,并允许突发使用至 4 GB。但这种弹性以性能隔离为代价:vGPU 的显存和计算资源均通过时间片调度,高负载虚拟机可能抢占邻居算力。VMware 官方测试显示,vGPU 在密集推理场景下的性能抖动可达 15%–25%(VMware,2023,vSphere GPU 性能白皮书)。
部署复杂度
vGPU 依赖 NVIDIA vGPU Manager 和授权的 Hypervisor(如 vSphere、KVM with NVIDIA license)。中国大陆企业如需从海外云迁移,需注意 vGPU 许可费用按 vGPU 实例数量计费,每实例年费约 200–500 美元,对于大规模集群是一笔不可忽视的隐性成本。
时分复用:软件层共享,适合延迟不敏感的批处理
时分复用(Temporal Sharing) 通过 GPU 时间片轮转实现多任务共享,典型实现包括 NVIDIA MPS(Multi-Process Service)和 Kubernetes 的 GPU 调度插件。它不需要硬件或 Hypervisor 支持,部署最为简单。
吞吐优先,延迟堪忧
时分复用的核心优势是零显存浪费:多个任务共享全部显存,仅通过时间片交替执行。对于批量文本生成、离线图像推理等延迟容忍度高的任务,吞吐量可提升 2–3 倍。但时间片切换引入的调度延迟在并发数超过 4 时急剧上升。百度飞桨团队在 A100 上的测试表明,当 8 个推理进程同时运行时,P99 延迟从 50 ms 飙升至 320 ms(百度,2024,飞桨 GPU 调度技术报告)。
隔离性最弱
任何进程的非法内存访问都可能导致整个 GPU 驱动崩溃,影响所有共享任务。因此,时分复用不适合多租户场景或对可靠性要求极高的生产环境。
三种方案的对比矩阵
| 维度 | MIG | vGPU | 时分复用 |
|---|---|---|---|
| 隔离级别 | 硬件级 | 软件级(Hypervisor) | 无隔离 |
| 性能损耗 | 1%–3% | 5%–15% | 0%(裸调度) |
| 显存分配 | 静态固定 | 动态可配 | 全部共享 |
| 延迟抖动 | <5% | 15%–25% | 高并发时 >300% |
| 支持 GPU | A100/H100/B200 及以上 | T4/V100/A100/H100 | 所有 NVIDIA GPU |
| 部署复杂度 | 中等(需 NVIDIA 驱动支持) | 高(需 Hypervisor + 许可) | 低(仅需驱动与调度器) |
| 适用场景 | 多租户推理、金融合规 | 虚拟桌面、VDI | 离线批处理、开发测试 |
选型决策树:按场景匹配方案
场景一:金融/政务合规推理
选择 MIG。等保 2.0 三级以上要求计算资源与数据严格隔离,MIG 是唯一满足硬件级隔离的方案。建议使用 A100 80 GB 切分为 4×20 GB 实例,每实例承载一个模型服务。
场景二:内部开发与测试集群
选择时分复用。开发环境中模型频繁切换,静态分区会导致资源碎片。使用 Kubernetes 的 GPU 时间片调度器,配合 NVIDIA MPS,可将 4 张 A100 的利用率从 20% 提升至 70% 以上。
场景三:混合负载(推理 + 训练)
选择 vGPU。vGPU 的动态显存分配允许在空闲时段将更多资源分配给训练任务。例如,白天分配 6 GB/实例用于推理,夜间自动调整至 12 GB/实例用于模型微调。
GPU 虚拟化的成本陷阱
显存和许可费是两大隐藏成本。MIG 需要 GPU 支持 MIG 模式(A100 起),旧卡无法使用。vGPU 的许可费在 100 节点集群中每年可达 3–5 万美元。时分复用虽无许可费,但需要额外的监控和错误恢复工具。对于跨境访问 NVIDIA 官方文档或海外云 GPU 管理后台,部分团队会使用 NordVPN 跨境访问 等工具解决网络延迟问题,这在技术选型调研阶段是常见的实操路径。
FAQ
Q1:MIG 和 vGPU 能混用在同一台服务器上吗?
不能。同一张物理 GPU 只能启用 MIG 或 vGPU 模式之一,二者互斥。但服务器内多张 GPU 可分别配置,例如 GPU 0 启用 MIG,GPU 1 运行 vGPU,前提是 Hypervisor 和驱动版本兼容。
Q2:时分复用会导致显存溢出吗?
会。由于所有任务共享显存,若某个任务申请超过剩余显存,驱动会触发 OOM 错误。建议在 Kubernetes 中设置 nvidia.com/gpu.memory 资源限制,将单任务显存上限设为总显存的 60%,预留 40% 作为缓冲。
Q3:哪种方案对国产 GPU(如华为昇腾、寒武纪)支持最好?
截至 2025 年,国产 GPU 的虚拟化方案以软件层共享为主。华为昇腾 910B 支持类似 MIG 的硬件分区,但仅限自家 CANN 框架;寒武纪 MLU370 仅提供时分复用模式。建议在选型前向厂商索取兼容性清单,实测后再决策。
参考资料
- NVIDIA. 2024. MIG User Guide (v1.3)
- VMware. 2023. vSphere GPU Performance White Paper
- 中国信通院. 2024. 人工智能发展白皮书
- 百度飞桨团队. 2024. 飞桨 GPU 调度技术报告
- UNILINK 数据库. 2025. 中国 AI 基础设施部署案例汇编