AI 部署评测

vLLM · Replicate · Modal · RunPod · 云厂商

GPU

GPU Rental vs Serverless Cost Calculation: Real Hourly Expenses from A100 to H100

中国 AI 工程师在 2025 年面临一个残酷的财务选择题:租用一张 NVIDIA A100 (80GB) GPU 的按需价格在阿里云为 ¥28.55/小时,而 AWS 美东区域同规格实例为 $3.91/小时(约 ¥28.10/小时),两者几乎持平。但一旦切换到 H100 (80GB),国内云厂商的按需报价飙升至…

中国 AI 工程师在 2025 年面临一个残酷的财务选择题:租用一张 NVIDIA A100 (80GB) GPU 的按需价格在阿里云为 ¥28.55/小时,而 AWS 美东区域同规格实例为 $3.91/小时(约 ¥28.10/小时),两者几乎持平。但一旦切换到 H100 (80GB),国内云厂商的按需报价飙升至 ¥80-120/小时,海外 AWS p5.48xlarge 实例则为 $14.48/小时(约 ¥104/小时)。根据中国信通院《2024 年云计算白皮书》,企业 AI 推理和训练场景中 GPU 成本占比已超过总 MLOps 支出的 62%。对于 25-40 岁的 MLOps 工程师而言,在 vLLM、Replicate、Modal、RunPod 以及三大云厂商之间选择 GPU 租赁模式,本质是在延迟、吞吐与成本三要素间做动态平衡。本文基于 2025 年 2 月实时 API 报价与公开计费页面,拆解从 A100 到 H100 的真实小时成本,并给出中国视角下的采购决策框架。

GPU 租赁定价的底层逻辑:按需、预留与竞价

按需实例是成本基线。AWS 的 p4d.24xlarge(8×A100 80GB)按需价格为 $32.77/小时,阿里云 ecs.gn7i-c32g1.4xlarge(1×A100 80GB)为 ¥28.55/小时。但实际 ML 工作负载很少用满 8 卡,因此单卡成本更关键。

预留实例(1 年/3 年合约)可降低 40-60% 成本。以 Google Cloud 的 A100 80GB 为例,按需 $3.53/小时,1 年承诺降至 $2.12/小时。竞价实例则进一步压低成本:AWS 美东区域竞价价格约为按需的 20-30%,即 $0.78-1.17/小时。但中断风险高,适合容错性强的批量推理。

H100 的溢价来自其 FP8 Transformer Engine 和 NVLink 互联。RunPod 的 H100 出租单价为 $2.49/小时,而阿里云 H100 按需 ¥90/小时(约 $12.5/小时),价差高达 5 倍。这种差异源于国内对高端 GPU 的进口限制与供需失衡。

三大云厂商 GPU 成本对比:中国 vs 海外

云厂商实例类型GPU 型号按需价格(单卡/小时)竞价/抢占式价格
AWS 美东p4d.24xlarge (8卡)A100 80GB$4.10$0.82
AWS 美东p5.48xlarge (8卡)H100 80GB$14.48$2.90
阿里云 华东2ecs.gn7i-c32g1.4xlargeA100 80GB¥28.55¥8.57
阿里云 华东2ecs.gn10i-c20g1.20xlargeH100 80GB¥90.00¥27.00
Google Cloud 美东4a2-highgpu-8g (8卡)A100 80GB$3.53$1.06
Google Cloud 美东4a3-highgpu-8g (8卡)H100 80GB$12.80$3.84

数据来源:【AWS 2025 年 2 月定价页面】【阿里云 2025 年 2 月 ECS 定价页】【Google Cloud 2025 年 2 月 GPU 定价页】

核心发现:国内 A100 按需价格已与海外持平,但 H100 存在 4-5 倍溢价。如果工作负载以 FP16 推理为主,A100 性价比更高;若需 FP8 推理(如 Llama 3 70B),H100 的吞吐优势可抵消部分成本。

Serverless GPU 平台:Replicate 与 Modal 的成本模型

Replicate 采用按秒计费,A100 80GB 为 $0.0011/秒(约 $3.96/小时),H100 80GB 为 $0.0025/秒(约 $9.00/小时)。但 Replicate 的冷启动(cold start)延迟约 2-5 秒,首次推理需等待模型加载。对于延迟敏感的在线推理,这可能导致额外成本。

Modal 的计费更精细:A100 80GB 为 $0.0013/秒(约 $4.68/小时),H100 80GB 为 $0.0028/秒(约 $10.08/小时)。Modal 的优势在于自动缩放:无请求时 GPU 实例销毁,不产生空闲费用。但 Modal 的 GPU 容器冷启动需要 10-30 秒,适合批量推理而非实时 API。

成本对比:假设每日 8 小时推理负载,Replicate 月费约 $950(A100),Modal 约 $1,120(A100)。而 AWS 预留实例月费 $2,460(A100 单卡),但可 24/7 运行。Serverless 平台在低利用率场景下更经济,但高负载时云厂商预留实例更优。

vLLM 与专用推理引擎的隐性成本

vLLM 作为开源推理引擎,本身无许可费,但需自行管理 GPU 资源。使用 vLLM 部署 Llama 3 70B(FP16)需要约 140GB 显存,即 2 张 A100 80GB 或 1 张 H100 80GB(使用量化)。AWS 上 2×A100 按需成本为 $8.20/小时,而 RunPod 的 2×A100 社区云为 $1.98/小时。

关键隐性成本:vLLM 的 PagedAttention 虽降低显存碎片,但 batch size 调优直接影响吞吐。基准测试显示,vLLM 在 batch size=64 时吞吐可达 3,200 tokens/秒(H100),但 batch size=1 时仅 450 tokens/秒。这意味着 GPU 利用率从 85% 降至 12%,单位 token 成本翻 7 倍。

RunPod 的 H100 社区云定价 $2.49/小时,但网络带宽限制为 10 Gbps,多节点训练时通信瓶颈显著。对于单卡推理,RunPod 性价比突出;对于多卡训练,需选择 AWS 或阿里云的高带宽实例。

延迟与吞吐的取舍:A100 vs H100 的成本效率

H100 的 FP8 推理吞吐是 A100 FP16 的 2.5-3 倍。以 Llama 3 70B 为例,H100 FP8 可达 6,000 tokens/秒,A100 FP16 仅 2,000 tokens/秒。但 H100 按需价格是 A100 的 3.5 倍(海外)到 5 倍(国内)。成本效率(Cost per million tokens)计算如下:

  • AWS A100(FP16):$4.10/小时 ÷ 2,000 tokens/秒 × 1,000,000 = $0.57/百万 tokens
  • AWS H100(FP8):$14.48/小时 ÷ 6,000 tokens/秒 × 1,000,000 = $0.67/百万 tokens
  • 阿里云 A100(FP16):¥28.55/小时 ÷ 2,000 tokens/秒 × 1,000,000 = ¥3.97/百万 tokens
  • 阿里云 H100(FP8):¥90.00/小时 ÷ 6,000 tokens/秒 × 1,000,000 = ¥4.17/百万 tokens

数据来源:【vLLM 官方基准测试 2024 年 12 月】【AWS 2025 年 2 月定价页】

结论:海外场景下 H100 成本效率略低,但延迟降低 60%(从 500ms 降至 200ms)。国内场景下 H100 成本效率几乎持平 A100,但溢价主要来自供需。对于延迟敏感的实时 API,H100 是必要选择;对于离线批处理,A100 更优。

中国视角下的特殊因素:网络延迟与合规成本

跨境 GPU 租赁面临网络延迟问题。从中国大陆访问 AWS 美东区域,平均延迟约 180-250ms,而阿里云华东区域延迟 <5ms。对于在线推理,跨境延迟可能导致用户体验下降。部分团队使用 NordVPN 跨境访问 等工具优化路由,但额外增加 10-20ms 延迟和订阅成本。

合规成本:中国《数据安全法》要求重要数据和个人信息不得出境。如果模型训练数据涉及用户隐私,必须使用国内云厂商。阿里云与华为云的 GPU 实例虽贵,但满足等保三级要求。海外云厂商的跨境数据传输需签订《标准合同条款》,法务成本约 ¥5,000-20,000/年。

支付壁垒:海外云厂商的美元结算需 Visa/Mastercard,国内企业需通过第三方换汇。使用 Hostinger 主机 等跨境服务时,需注意汇率波动和手续费(约 2-3%)。对于预算敏感的小团队,RunPod 支持支付宝直接付款,减少隐形开支。

采购决策框架:按工作负载选择最优方案

场景一:在线推理 API(延迟 <500ms,每日 12 小时负载)

  • 推荐:阿里云 A100 预留实例(¥8.57/小时竞价),月费约 ¥3,086
  • 备选:RunPod A100 社区云($0.79/小时),月费约 ¥1,420,但需承担跨境延迟

场景二:批量训练(每日 24 小时,容错性强)

  • 推荐:AWS 竞价实例 A100($0.82/小时),月费约 $590
  • 备选:Modal 自动缩放($4.68/小时实际使用),月费约 $1,120,但无空闲浪费

场景三:H100 高性能推理(延迟 <200ms,吞吐 >5,000 tokens/秒)

  • 推荐:RunPod H100 社区云($2.49/小时),月费约 $1,793
  • 备选:阿里云 H100 竞价(¥27.00/小时),月费约 ¥19,440,但合规性更优

成本陷阱:不要只看 GPU 单价。vLLM 的显存管理、batch size 优化、冷启动次数,都会使实际成本偏离理论值 30-50%。建议先用 Modal 或 Replicate 的按秒计费模式跑 1 周基准测试,再决定是否迁移到预留实例。

FAQ

Q1:国内团队用海外 GPU 平台(如 RunPod)会被封号吗?

RunPod 目前未对中国 IP 进行限制,但跨境支付需使用外币信用卡。根据《外汇管理条例》,个人年购汇额度为 $50,000,企业需通过银行办理经常项目购汇。2024 年有约 15% 的国内用户反馈因 IP 频繁切换被平台触发风控,建议使用固定节点访问。

Q2:A100 和 H100 在推理 Llama 3 70B 时,成本差距多大?

以百万 tokens 计,AWS 上 A100 FP16 成本 $0.57,H100 FP8 成本 $0.67,差距 17.5%。但国内阿里云上,A100 FP16 成本 ¥3.97,H100 FP8 成本 ¥4.17,差距仅 5%。H100 的延迟优势(200ms vs 500ms)在实时场景下更关键。

Q3:Serverless 平台(Modal/Replicate)比云厂商便宜多少?

在低利用率场景(日均 4 小时负载),Modal 月费约 $560(A100),AWS 预留实例月费 $2,460,节省 77%。但高利用率(日均 20 小时)时,Modal 月费 $2,800,AWS 预留实例 $2,460,反而贵 14%。Serverless 适合波动负载,稳定负载选预留实例。

参考资料

  • 中国信通院 2024 年《云计算白皮书》
  • AWS 2025 年 2 月 EC2 GPU 定价页面
  • 阿里云 2025 年 2 月 ECS GPU 实例定价页
  • Google Cloud 2025 年 2 月 GPU 机器系列定价
  • vLLM 官方 2024 年 12 月《PagedAttention 与 Llama 3 吞吐基准测试》