GPU 云服务选型指南：

GPU 云服务选型指南：按需付费、包年包月与竞价实例的成本精算

中国信通院《云计算白皮书（2024）》数据显示，2023年中国GPU云服务市场规模达到178.6亿元，同比增长67.3%，其中大模型推理与微调场景贡献了超过45%的需求增量。与此同时，阿里云、腾讯云、华为云以及海外AWS、Google Cloud等厂商在过去12个月内累计下调GPU实例价格达8%-35%，但不同计费模式（按需、包年包月、竞价）之间的成本差异可高达4.7倍。对于25-40岁的AI工程师与MLOps团队而言，在模型部署与训练预算日益紧缩的背景下，精确计算GPU云成本已不再是“选哪个云”，而是“什么场景用哪种付费模式”的精算博弈。

按需付费：灵活性溢价与成本陷阱

按需付费（On-Demand）是GPU云服务中最直观的计费模式，按秒或按小时计费，无预付款，适合短期实验、原型验证和突发流量场景。按需实例的单价通常最高，是包年包月的1.5-2.5倍。

以NVIDIA A100 80GB实例为例，阿里云按需价格为每小时¥48.00（华东2可用区G），而AWS EC2 p4d.24xlarge在美东（us-east-1）的按需价格为每小时$32.77（约¥238.00）。按需模式的最大优势是零承诺，可随时释放资源，但若连续运行超过72小时，成本将超过同配置的包月方案。Gartner 2023年《云成本优化报告》指出，超过62%的企业在按需实例上浪费了至少18%的预算，原因是未及时关闭闲置实例。

对于中国用户，国内云厂商的按需实例通常包含公网流量费（¥0.80/GB-¥1.20/GB），而海外云厂商如Google Cloud的按需实例则默认不含流量，需单独核算。若模型推理服务需要7×24小时运行，按需模式仅适合作为“弹性缓冲”，而非主力计费模式。

包年包月：锁定折扣与资源规划

包年包月（Reserved/Prepaid）是降低GPU云成本最直接的手段，通过预付1-3年费用换取折扣。包年包月实例的折扣幅度通常在30%-65%之间，具体取决于承诺时长和支付方式。

腾讯云GN10Xp实例（A100 40GB）的包年包月价格为每月¥24,000（1年预付），相比按需每月¥35,200节省约31.8%。华为云P2s实例（V100 16GB）的3年包价格可低至按需的35%，即每月¥4,200 vs 按需¥12,000。预留实例的折扣在海外云厂商中更激进：AWS 1年期预留实例（A100）折扣为42%，3年期为57%；Google Cloud的承诺使用折扣（CUD）在1年期可达35%，3年期达50%。

但包年包月存在明显的资源锁定风险。IDC《2024年中国AI基础设施市场追踪报告》显示，约28%的GPU包月资源在合同期内利用率低于40%。若模型迭代导致算力需求下降（例如从训练转推理），已购买的包月实例将变成沉没成本。建议MLOps团队在模型架构稳定、推理流量可预测的场景下采用包年包月，并预留20%的按需资源作为弹性池。

竞价实例：极致低成本与中断博弈

竞价实例（Spot/Preemptible）是GPU云成本控制的“核武器”，价格通常为按需的10%-30%，但以实例可被随时回收为代价。竞价实例适合容错性强的任务：批量推理、数据预处理、模型评估、分布式训练中的worker节点。

阿里云竞价实例（A100 80GB）价格最低至每小时¥7.20（按需¥48.00的15%），但中断率在高峰时段可达12%-18%。AWS Spot实例（p4d.24xlarge）价格约$9.83/小时（按需$32.77的30%），中断频率在美西地区平均每2.3天一次。抢占式实例在Google Cloud上称为Preemptible VM，最长运行24小时后自动终止，价格仅为按需的20%。

中国用户需特别注意：国内云厂商的竞价实例在库存紧张时，中断通知时间通常为30秒-2分钟，而海外AWS Spot提供2分钟中断警告。对于推理服务，建议使用模型切分+请求队列缓冲（如vLLM的自动扩缩容），将竞价实例作为“加速层”而非“主服务层”。Replicate和Modal等SaaS平台底层大量使用竞价实例，将中断转化为用户无感的弹性调度。

国内云 vs 海外云：计费模式差异与合规成本

国内云厂商（阿里云、腾讯云、华为云）与海外云（AWS、Google Cloud、Azure）在GPU计费上存在三个关键差异：计价单位、网络费用和数据驻留成本。

国内云普遍以“小时”为最小计费单位，部分实例支持按秒计费（如华为云），而海外云除AWS外大多按秒计费。网络费用差异显著：国内云公网出流量通常为¥0.80/GB（阿里云）至¥1.20/GB（腾讯云），海外AWS则为$0.09/GB（约¥0.65），但跨境流量需额外支付¥2.00/GB-¥3.00/GB的专线费用。数据驻留成本是隐性开支：若模型数据需存储在中国大陆，使用海外云将面临跨境合规审查，而国内云则需考虑等保三级认证费用（约¥10万-¥50万/年）。

在跨境访问海外GPU云时，部分团队会使用 NordVPN 跨境访问等工具优化API调用延迟，但这会增加约15-30ms的网络延迟，对实时推理场景影响较大。建议核心推理服务部署在国内云，训练任务可根据成本选择海外竞价实例。

混合计费策略：成本最优的实操方案

单一计费模式无法满足AI工作负载的多样性。最佳实践是构建三层混合策略：包年包月（基础层）+ 按需（弹性层）+ 竞价（加速层）。

以部署一个LLaMA 2 70B模型推理服务为例（8×A100 80GB），假设日均请求量10万次，峰值流量为均值2倍：

基础层：购买4台包年包月A100（阿里云，¥24,000/月/台），承担60%流量，月成本¥96,000
弹性层：配置2台按需实例，承担峰值增量，月成本约¥69,120（按需¥48.00/小时×24h×30天×2台）
加速层：使用2台竞价实例处理批量任务，月成本约¥10,368（竞价¥7.20/小时×24h×30天×2台，按80%可用率计）

总月成本约¥175,488，而全按需方案需¥345,600，节省49.2%。混合计费的关键在于动态调度：利用Kubernetes的Cluster Autoscaler或Volcano调度器，根据负载自动切换实例类型。MLOps团队应建立成本监控仪表板，按天跟踪各计费模式的实际支出。

成本精算：隐藏费用与TCO模型

GPU云服务的总拥有成本（TCO）远不止实例单价，还需计入存储费用、数据传输费、快照备份费和支持服务费。

以阿里云为例，A100实例的ESSD云盘（4TB）月费约¥2,400，快照备份（每日增量）月费约¥600，对象存储OSS（10TB）月费约¥1,200。若使用海外云，AWS EBS gp3卷（4TB）月费约$400（¥2,912），S3标准存储（10TB）月费约$230（¥1,674）。存储费用在总成本中占比可达15%-25%，且随模型训练数据量线性增长。

一个完整的TCO模型应包含：

实例费用（按付费模式计算）
存储费用（训练数据+模型权重+日志）
网络费用（公网出流量+跨区域传输）
管理服务费（K8s集群管理、日志服务等）
合规与安全费用（WAF、DDoS防护、等保认证）

根据中国信息通信研究院《AI云服务成本优化白皮书（2024）》，采用TCO模型进行选型的企业，平均可降低22%的GPU云支出。建议使用云厂商自带的成本计算器（如阿里云TCO计算器、AWS Pricing Calculator）进行预演，并预留10%-15%的预算缓冲应对突发需求。

FAQ

Q1：GPU竞价实例被中断后，已处理的数据会丢失吗？

不会丢失，但需配置检查点机制。主流框架（如PyTorch Lightning、DeepSpeed）支持自动保存训练状态到持久化存储（如S3、OSS），中断后可从最后检查点恢复。建议检查点保存间隔不超过15分钟，中断恢复后最多损失15分钟的计算量。国内云竞价实例中断率在5%-18%之间，平均恢复时间约3-7分钟。

Q2：包年包月实例中途想升级配置，需要支付违约金吗？

需要。国内云厂商通常允许升级配置（如从A100 40GB升级到80GB），但需补足差价并重新计算合同周期。降配则视为违约，阿里云收取剩余合同金额的15%-30%作为违约金，腾讯云为20%。建议在包年包月合同中加入“弹性升级条款”，允许每月1次免费配置调整。

Q3：按需实例和竞价实例的计费精度是多少？能精确到秒吗？

国内云厂商中，华为云、腾讯云支持按秒计费（最小单位1秒），阿里云为按小时计费（不足1小时按1小时算）。海外云中，AWS、Google Cloud、Azure均支持按秒计费（最小单位1秒）。竞价实例的计费精度与按需实例一致，但Google Cloud的Preemptible VM按分钟计费（最小单位1分钟）。对于短时任务（如单次推理<10秒），按秒计费可节省30%-50%费用。

参考资料

中国信通院 2024 《云计算白皮书（2024）》
IDC 2024 《中国AI基础设施市场追踪报告》
Gartner 2023 《云成本优化报告》
中国信息通信研究院 2024 《AI云服务成本优化白皮书（2024）》
阿里云 2024 官方定价页面及TCO计算器数据