AI 部署评测

vLLM · Replicate · Modal · RunPod · 云厂商

GPU

GPU Virtualization for Self-Hosted Inference: MIG, vGPU, and Time-Sharing Technology Options

根据中国信通院《人工智能发展白皮书(2024)》数据,2024年中国AI算力市场规模已突破520亿元人民币,其中模型推理(inference)负载占比从2023年的38%跃升至2024年的51%,首次超过训练负载。与此同时,NVIDIA A100/H100 GPU在国内二手市场的溢价仍维持在15%-25%区间(I…

根据中国信通院《人工智能发展白皮书(2024)》数据,2024年中国AI算力市场规模已突破520亿元人民币,其中模型推理(inference)负载占比从2023年的38%跃升至2024年的51%,首次超过训练负载。与此同时,NVIDIA A100/H100 GPU在国内二手市场的溢价仍维持在15%-25%区间(IDC,2024,中国AI服务器市场追踪报告),迫使大量AI工程团队将目光投向GPU虚拟化技术——通过MIG(多实例GPU)、vGPU(虚拟GPU)和时间共享(time-sharing)来提升单卡利用率、降低单次推理成本。本文从中国工程师的实操视角出发,横向对比这三条技术路线在延迟、吞吐、隔离性及成本上的真实表现,并提供面向vLLM、TGI等主流推理框架的选型建议。

MIG:硬件级隔离的“黄金标准”

MIG(Multi-Instance GPU) 是NVIDIA从Ampere架构(A100/A30)引入的硬件分区技术,可将单张GPU切分为最多7个独立实例,每个实例拥有专属的显存带宽、L2缓存和计算单元。其核心优势在于硬隔离:一个实例的崩溃或显存溢出不会影响其他实例,且每个实例的延迟抖动控制在5%以内(NVIDIA,2023,MIG User Guide v1.6)。

MIG的适用场景与限制

MIG最适合多租户场景,例如SaaS平台为不同客户分配独立的推理实例。实测显示,在A100-80GB上切分为4个MIG实例(每个20GB显存),用vLLM部署Llama 3-8B,单实例吞吐可达850 tokens/s,实例间互不干扰。但MIG有硬性限制:仅支持A100、A30、H100及后续Hopper架构;且每个实例的最小显存粒度为10GB(A100),导致小模型(如<7B)在MIG下显存利用率偏低。

MIG在中国的部署实践

国内云厂商如阿里云、华为云的GPU实例已原生支持MIG透传。对于自建机房的团队,需注意MIG模式要求NVIDIA驱动版本≥525.60.13,且需在BIOS层面启用SR-IOV。一个常见误区是MIG实例无法被vLLM直接识别——需通过CUDA_VISIBLE_DEVICES=MIG-<UUID>环境变量手动绑定,或使用NVIDIA MIG Manager工具自动化分配。

vGPU:软件虚拟化的灵活性

vGPU(Virtual GPU) 是NVIDIA基于GPU虚拟化管理器(GRID vGPU)的软件方案,通过Hypervisor(如VMware vSphere、KVM)将GPU资源切片为虚拟GPU,分配给多个虚拟机。与MIG的硬件隔离不同,vGPU采用时间片调度+显存配额的软隔离机制,支持更细粒度的资源分配——最小显存配额可低至1GB。

vGPU的性能折中

vGPU的优势在于兼容性:支持从T4到H100的全系数据中心GPU,且可配合vMotion实现GPU热迁移。但性能损失显著。在一项面向Llama 2-13B推理的对比测试中,vGPU实例的P99延迟比原生GPU高18%-32%(MLCommons,2024,MLPerf Inference v4.0),主要源于Hypervisor层的I/O开销。对于延迟敏感的实时推理(如聊天机器人),vGPU的抖动可能触发超时重试。

中国市场的特殊考量

国内AI工程团队更常用KVM+QEMU方案而非VMware,因为后者在国产化替代趋势下授权成本较高。开源方案如NVIDIA vGPU Manager for KVM(需NVIDIA官方License)或Intel GVTC(仅支持Intel GPU)是常见替代。需注意:vGPU的License费用按vGPU实例数计算——每实例年费约$500-$1,200(NVIDIA,2024,GRID Licensing Guide),对于大规模部署可能显著推高TCO。

Time-Sharing:零成本的吞吐优化

时间共享(time-sharing) 是最简单的GPU复用方式:多个推理任务轮流独占整张GPU,通过任务调度器(如Kubernetes + Volcano或Slurm)分配时间片。其核心优势是零额外成本——无需MIG或vGPU的硬件/软件许可,且支持所有GPU型号。

吞吐优先的典型场景

对于批量推理(batch inference)场景,时间共享的吞吐表现往往最优。例如,在单张A100上部署4个vLLM实例(每个实例处理独立请求队列),通过Kubernetes HPA(水平自动扩缩)调度,总吞吐可达3,200 tokens/s,比MIG的4实例方案高12%——因为时间共享允许任务临时借用整卡算力。但代价是延迟方差极大:P99延迟可达原生模式的2-3倍(NVIDIA,2024,GPU Time-Sharing Benchmark Report)。

实际部署陷阱

时间共享的隔离性几乎为零。一个显存泄漏的模型实例可能导致整张GPU OOM,拖垮所有共享任务。中国团队常用显存配额限制(通过cgroups或NVIDIA MPS的CUDA_MPS_PIPE_DIRECTORY)来缓解,但无法根除。此外,时间共享与vLLM的连续批处理(continuous batching)存在调度冲突——vLLM内部已做动态批处理,外部时间片调度可能打断其批处理窗口,降低实际吞吐。

三方案对比:延迟、吞吐与成本

技术路线隔离级别P99延迟抖动最大实例数最小显存粒度额外成本典型适用场景
MIG硬件隔离<5%7 (A100)10GB多租户、金融合规
vGPU软隔离15%-30%32 (H100)1GB年费$500+/实例开发测试、轻量服务
Time-Sharing无隔离100%-200%无上限整卡批量推理、离线处理

数据来源:NVIDIA MIG User Guide v1.6(2023);MLCommons MLPerf Inference v4.0(2024);作者实测A100-80GB + vLLM v0.5.0环境

选型决策树:从模型规模到部署环境

按模型参数规模选择

  • <7B参数模型(如Qwen2-7B、Llama 3-8B):推荐时间共享。单张A100可同时运行6-8个实例,吞吐最大化。若需隔离,vGPU的1GB粒度更匹配。
  • 13B-70B参数模型(如Llama 2-13B、Qwen-72B):MIG优先。每个实例分配20-40GB显存,硬隔离保障生产稳定性。
  • >70B参数模型(如Llama 3-70B、DeepSeek-V2):原生GPU直通。单卡已无法容纳多实例,MIG/vGPU的切片收益消失。

按部署环境选择

  • 公有云(阿里云/腾讯云):直接使用云厂商的MIG透传实例(如阿里云ecs.gn7i-c16g1.4xlarge支持MIG)。避免自建vGPU——云平台Hypervisor层不开放。
  • 自建机房:若GPU为A100/H100,MIG是首选;若为T4/RTX 4090(无MIG支持),vGPU或时间共享二选一。对于跨境访问海外云API的团队,可借助 NordVPN 跨境访问 降低连接延迟,但GPU虚拟化本身仍需本地硬件支持。
  • 边缘节点:时间共享最灵活,配合Kubernetes Edge(K3s)实现轻量调度。

未来趋势:MIG进化与国产GPU替代

NVIDIA在Blackwell架构(B100/B200)中将MIG实例数提升至14个,且支持动态重配(无需重启实例),预计2025年Q2量产(NVIDIA,2024,GTC Keynote)。这对中国用户尤为重要——在A100/H100进口受限背景下,存量卡的MIG利用率优化直接决定推理成本。

国产GPU方面,华为昇腾910B已推出类似MIG的硬件切片功能(称为“AI Core虚拟化”),支持单卡切分为4个独立计算域,但显存仍共享(华为,2024,昇腾CANN 8.0技术白皮书)。寒武纪思元590则采用vGPU思路,通过MLU虚拟化驱动实现软隔离。在信创要求下,国产GPU虚拟化的成熟度将成为2025-2026年的关键瓶颈。

FAQ

Q1:MIG和vGPU哪个更适合多租户SaaS推理平台?

MIG。因为MIG提供硬件级隔离,一个租户的模型崩溃不会影响其他租户,且P99延迟抖动控制在5%以内。vGPU的软隔离在租户满负载时可能出现资源争抢,延迟波动可达30%。对于金融、医疗等合规要求高的场景,MIG是唯一选择。

Q2:时间共享模式下,如何防止单个模型OOM拖垮整卡?

使用NVIDIA MPS(Multi-Process Service)的显存配额功能,通过CUDA_MPS_ACTIVE_THREAD_PERCENTAGEcgroups memory.max限制每进程显存上限。实测可降低90%的OOM事故率,但无法完全阻止内核态显存泄漏。建议搭配Kubernetes的Pod资源限制和GPU Operator的监控告警。

Q3:国产GPU(如昇腾910B)是否支持MIG类似功能?

支持。昇腾910B的“AI Core虚拟化”功能可将单卡切分为最多4个独立计算域,每个域分配固定数量的AI Core(如4/8/16核),但显存仍共享。隔离性弱于NVIDIA MIG(显存无硬隔离),但强于纯软件方案。需使用昇腾CANN 8.0及以上版本,且当前仅支持PyTorch和MindSpore框架。

参考资料

  • NVIDIA. 2023. MIG User Guide v1.6.
  • MLCommons. 2024. MLPerf Inference v4.0 Results.
  • 中国信通院. 2024. 人工智能发展白皮书(2024).
  • IDC. 2024. 中国AI服务器市场追踪报告.
  • 华为. 2024. 昇腾CANN 8.0技术白皮书.