GPU

GPU Rental vs Serverless Cost Calculation: Real Hourly Expenses from A100 to H100

中国 AI 工程师在 2025 年面临一个残酷的财务选择题：租用一张 NVIDIA A100 (80GB) GPU 的按需价格在阿里云为 ¥28.55/小时，而 AWS 美东区域同规格实例为 $3.91/小时（约 ¥28.10/小时），两者几乎持平。但一旦切换到 H100 (80GB)，国内云厂商的按需报价飙升至…

中国 AI 工程师在 2025 年面临一个残酷的财务选择题：租用一张 NVIDIA A100 (80GB) GPU 的按需价格在阿里云为 ¥28.55/小时，而 AWS 美东区域同规格实例为 $3.91/小时（约 ¥28.10/小时），两者几乎持平。但一旦切换到 H100 (80GB)，国内云厂商的按需报价飙升至 ¥80-120/小时，海外 AWS p5.48xlarge 实例则为 $14.48/小时（约 ¥104/小时）。根据中国信通院《2024 年云计算白皮书》，企业 AI 推理和训练场景中 GPU 成本占比已超过总 MLOps 支出的 62%。对于 25-40 岁的 MLOps 工程师而言，在 vLLM、Replicate、Modal、RunPod 以及三大云厂商之间选择 GPU 租赁模式，本质是在延迟、吞吐与成本三要素间做动态平衡。本文基于 2025 年 2 月实时 API 报价与公开计费页面，拆解从 A100 到 H100 的真实小时成本，并给出中国视角下的采购决策框架。

GPU 租赁定价的底层逻辑：按需、预留与竞价

按需实例是成本基线。AWS 的 p4d.24xlarge（8×A100 80GB）按需价格为 $32.77/小时，阿里云 ecs.gn7i-c32g1.4xlarge（1×A100 80GB）为 ¥28.55/小时。但实际 ML 工作负载很少用满 8 卡，因此单卡成本更关键。

预留实例（1 年/3 年合约）可降低 40-60% 成本。以 Google Cloud 的 A100 80GB 为例，按需 $3.53/小时，1 年承诺降至 $2.12/小时。竞价实例则进一步压低成本：AWS 美东区域竞价价格约为按需的 20-30%，即 $0.78-1.17/小时。但中断风险高，适合容错性强的批量推理。

H100 的溢价来自其 FP8 Transformer Engine 和 NVLink 互联。RunPod 的 H100 出租单价为 $2.49/小时，而阿里云 H100 按需 ¥90/小时（约 $12.5/小时），价差高达 5 倍。这种差异源于国内对高端 GPU 的进口限制与供需失衡。

三大云厂商 GPU 成本对比：中国 vs 海外

云厂商	实例类型	GPU 型号	按需价格（单卡/小时）	竞价/抢占式价格
AWS 美东	p4d.24xlarge (8卡)	A100 80GB	$4.10	$0.82
AWS 美东	p5.48xlarge (8卡)	H100 80GB	$14.48	$2.90
阿里云华东2	ecs.gn7i-c32g1.4xlarge	A100 80GB	¥28.55	¥8.57
阿里云华东2	ecs.gn10i-c20g1.20xlarge	H100 80GB	¥90.00	¥27.00
Google Cloud 美东4	a2-highgpu-8g (8卡)	A100 80GB	$3.53	$1.06
Google Cloud 美东4	a3-highgpu-8g (8卡)	H100 80GB	$12.80	$3.84

数据来源：【AWS 2025 年 2 月定价页面】【阿里云 2025 年 2 月 ECS 定价页】【Google Cloud 2025 年 2 月 GPU 定价页】

核心发现：国内 A100 按需价格已与海外持平，但 H100 存在 4-5 倍溢价。如果工作负载以 FP16 推理为主，A100 性价比更高；若需 FP8 推理（如 Llama 3 70B），H100 的吞吐优势可抵消部分成本。

Replicate 采用按秒计费，A100 80GB 为 $0.0011/秒（约 $3.96/小时），H100 80GB 为 $0.0025/秒（约 $9.00/小时）。但 Replicate 的冷启动（cold start）延迟约 2-5 秒，首次推理需等待模型加载。对于延迟敏感的在线推理，这可能导致额外成本。

Modal 的计费更精细：A100 80GB 为 $0.0013/秒（约 $4.68/小时），H100 80GB 为 $0.0028/秒（约 $10.08/小时）。Modal 的优势在于自动缩放：无请求时 GPU 实例销毁，不产生空闲费用。但 Modal 的 GPU 容器冷启动需要 10-30 秒，适合批量推理而非实时 API。

成本对比：假设每日 8 小时推理负载，Replicate 月费约 $950（A100），Modal 约 $1,120（A100）。而 AWS 预留实例月费 $2,460（A100 单卡），但可 24/7 运行。Serverless 平台在低利用率场景下更经济，但高负载时云厂商预留实例更优。

vLLM 与专用推理引擎的隐性成本

vLLM 作为开源推理引擎，本身无许可费，但需自行管理 GPU 资源。使用 vLLM 部署 Llama 3 70B（FP16）需要约 140GB 显存，即 2 张 A100 80GB 或 1 张 H100 80GB（使用量化）。AWS 上 2×A100 按需成本为 $8.20/小时，而 RunPod 的 2×A100 社区云为 $1.98/小时。

关键隐性成本：vLLM 的 PagedAttention 虽降低显存碎片，但 batch size 调优直接影响吞吐。基准测试显示，vLLM 在 batch size=64 时吞吐可达 3,200 tokens/秒（H100），但 batch size=1 时仅 450 tokens/秒。这意味着 GPU 利用率从 85% 降至 12%，单位 token 成本翻 7 倍。

RunPod 的 H100 社区云定价 $2.49/小时，但网络带宽限制为 10 Gbps，多节点训练时通信瓶颈显著。对于单卡推理，RunPod 性价比突出；对于多卡训练，需选择 AWS 或阿里云的高带宽实例。

延迟与吞吐的取舍：A100 vs H100 的成本效率

H100 的 FP8 推理吞吐是 A100 FP16 的 2.5-3 倍。以 Llama 3 70B 为例，H100 FP8 可达 6,000 tokens/秒，A100 FP16 仅 2,000 tokens/秒。但 H100 按需价格是 A100 的 3.5 倍（海外）到 5 倍（国内）。成本效率（Cost per million tokens）计算如下：

AWS A100（FP16）：$4.10/小时 ÷ 2,000 tokens/秒 × 1,000,000 = $0.57/百万 tokens
AWS H100（FP8）：$14.48/小时 ÷ 6,000 tokens/秒 × 1,000,000 = $0.67/百万 tokens
阿里云 A100（FP16）：¥28.55/小时 ÷ 2,000 tokens/秒 × 1,000,000 = ¥3.97/百万 tokens
阿里云 H100（FP8）：¥90.00/小时 ÷ 6,000 tokens/秒 × 1,000,000 = ¥4.17/百万 tokens

数据来源：【vLLM 官方基准测试 2024 年 12 月】【AWS 2025 年 2 月定价页】

结论：海外场景下 H100 成本效率略低，但延迟降低 60%（从 500ms 降至 200ms）。国内场景下 H100 成本效率几乎持平 A100，但溢价主要来自供需。对于延迟敏感的实时 API，H100 是必要选择；对于离线批处理，A100 更优。

中国视角下的特殊因素：网络延迟与合规成本

跨境 GPU 租赁面临网络延迟问题。从中国大陆访问 AWS 美东区域，平均延迟约 180-250ms，而阿里云华东区域延迟 <5ms。对于在线推理，跨境延迟可能导致用户体验下降。部分团队使用 NordVPN 跨境访问 等工具优化路由，但额外增加 10-20ms 延迟和订阅成本。

合规成本：中国《数据安全法》要求重要数据和个人信息不得出境。如果模型训练数据涉及用户隐私，必须使用国内云厂商。阿里云与华为云的 GPU 实例虽贵，但满足等保三级要求。海外云厂商的跨境数据传输需签订《标准合同条款》，法务成本约 ¥5,000-20,000/年。

支付壁垒：海外云厂商的美元结算需 Visa/Mastercard，国内企业需通过第三方换汇。使用 Hostinger 主机等跨境服务时，需注意汇率波动和手续费（约 2-3%）。对于预算敏感的小团队，RunPod 支持支付宝直接付款，减少隐形开支。

采购决策框架：按工作负载选择最优方案

场景一：在线推理 API（延迟 <500ms，每日 12 小时负载）

推荐：阿里云 A100 预留实例（¥8.57/小时竞价），月费约 ¥3,086
备选：RunPod A100 社区云（$0.79/小时），月费约 ¥1,420，但需承担跨境延迟

场景二：批量训练（每日 24 小时，容错性强）

推荐：AWS 竞价实例 A100（$0.82/小时），月费约 $590
备选：Modal 自动缩放（$4.68/小时实际使用），月费约 $1,120，但无空闲浪费

场景三：H100 高性能推理（延迟 <200ms，吞吐 >5,000 tokens/秒）

推荐：RunPod H100 社区云（$2.49/小时），月费约 $1,793
备选：阿里云 H100 竞价（¥27.00/小时），月费约 ¥19,440，但合规性更优

成本陷阱：不要只看 GPU 单价。vLLM 的显存管理、batch size 优化、冷启动次数，都会使实际成本偏离理论值 30-50%。建议先用 Modal 或 Replicate 的按秒计费模式跑 1 周基准测试，再决定是否迁移到预留实例。

FAQ

Q1：国内团队用海外 GPU 平台（如 RunPod）会被封号吗？

RunPod 目前未对中国 IP 进行限制，但跨境支付需使用外币信用卡。根据《外汇管理条例》，个人年购汇额度为 $50,000，企业需通过银行办理经常项目购汇。2024 年有约 15% 的国内用户反馈因 IP 频繁切换被平台触发风控，建议使用固定节点访问。

Q2：A100 和 H100 在推理 Llama 3 70B 时，成本差距多大？

以百万 tokens 计，AWS 上 A100 FP16 成本 $0.57，H100 FP8 成本 $0.67，差距 17.5%。但国内阿里云上，A100 FP16 成本 ¥3.97，H100 FP8 成本 ¥4.17，差距仅 5%。H100 的延迟优势（200ms vs 500ms）在实时场景下更关键。

Q3：Serverless 平台（Modal/Replicate）比云厂商便宜多少？

在低利用率场景（日均 4 小时负载），Modal 月费约 $560（A100），AWS 预留实例月费 $2,460，节省 77%。但高利用率（日均 20 小时）时，Modal 月费 $2,800，AWS 预留实例 $2,460，反而贵 14%。Serverless 适合波动负载，稳定负载选预留实例。

参考资料

中国信通院 2024 年《云计算白皮书》
AWS 2025 年 2 月 EC2 GPU 定价页面
阿里云 2025 年 2 月 ECS GPU 实例定价页
Google Cloud 2025 年 2 月 GPU 机器系列定价
vLLM 官方 2024 年 12 月《PagedAttention 与 Llama 3 吞吐基准测试》