GPU 租赁与 Serv

GPU 租赁与 Serverless 方案成本精算：从 A100 到 H100 的每小时真实开销

过去半年内，NVIDIA H100 GPU 的云租赁价格从 2024 年初的每小时 3.50 美元降至 2025 年第一季度的 2.10 美元区间，降幅达 40%，而 A100 的每小时均价已跌破 1.00 美元（根据云成本基准平台 CloudOptimizer 2025 年 3 月《全球 GPU 租赁指数》数据…

low doc 贷款 bas 会计师信银行流水接受度 cnf20 435e935f

过去半年内，NVIDIA H100 GPU 的云租赁价格从 2024 年初的每小时 3.50 美元降至 2025 年第一季度的 2.10 美元区间，降幅达 40%，而 A100 的每小时均价已跌破 1.00 美元（根据云成本基准平台 CloudOptimizer 2025 年 3 月《全球 GPU 租赁指数》数据）。与此同时，中国信通院《2024 人工智能云服务发展报告》指出，国内 Serverless AI 推理方案的市场份额同比增长 210%，但超过 62% 的团队在成本核算中存在“空闲计费”与“冷启动开销”两大盲区。对于 25-40 岁的 AI 工程师与 MLOps 从业者而言，在 A100 与 H100 之间做选择已不再是单纯的硬件代际问题，而是关乎每小时吞吐量、显存带宽与计费粒度三重约束下的精算博弈。

按需租赁 vs 预留实例：成本曲线的分水岭

按需租赁是大多数初创团队的首选，但隐藏着显著的价格溢价。AWS p4d.24xlarge（8×A100）在中国区的按需定价为每小时 32.77 美元（2025 年 4 月 AWS 中国官网报价），而同一实例的 1 年期预留实例预付全款后，每小时有效成本降至 19.66 美元，降幅达 40.1%。对于推理负载稳定的团队，预留实例的成本优势在运行超过 2,000 小时后即可覆盖预付差额。

竞价实例则适合容错性高的训练任务。Google Cloud 的 A100 竞价实例价格约为按需的 35%，但中断率在 15%-25% 之间（Google Cloud 2025 年 Q1 竞价实例可用性报告）。H100 竞价实例因供应量有限，中断率更高，达到 30%-40%，不建议用于超过 6 小时的连续训练。

国内云厂商的计费策略差异

阿里云与腾讯云的 A100 按需定价分别约为每小时 28 元人民币和 26 元人民币（2025 年 3 月公开报价），但预留实例折扣力度不及 AWS。阿里云 1 年期预留仅提供约 25% 折扣，而华为云通过“包月 GPU 集群”模式，将 A100 月费压至 18,000 元人民币（折合每小时 24.7 元），适合中国境内长期部署。

H100 的“隐性溢价”：显存带宽决定推理效率

H100 的每小时租金虽高于 A100 约 110%，但其 3.35 TB/s 的 HBM3 显存带宽（NVIDIA 2024 年 H100 白皮书）在 Transformer 推理场景中带来 2.5-3.0 倍的吞吐量提升。对于 Llama 3 70B 这类大模型，H100 的单卡推理延迟为 120 毫秒，而 A100 需要 4 卡并行才能达到 150 毫秒——此时单位 Token 成本才是真正的精算基准。

以 Replicate 平台的 Serverless 定价为例，H100 的推理调用成本为每百万 Token 0.50 美元，A100 为 0.35 美元，但 H100 的吞吐量高出 2.8 倍，使得每 Token 的实际开销反而低 22%。这一差异在批量推理场景中更为显著：当并发请求超过 16 时，H100 的显存带宽优势使其单位推理成本低于 A100 约 35%（基于 Modal 2025 年 1 月发布的《GPU 推理成本基准报告》）。

冷启动开销：Serverless 方案的隐藏成本

Serverless 平台（如 Modal、RunPod）的计费通常从容器启动开始，但冷启动时间可达 30-90 秒。对于日均调用 1,000 次、每次推理 2 秒的 API 服务，冷启动占总计费时间的 60% 以上。选择预留容器或“预热实例”可将冷启动降至 2 秒以内，但每月需额外支付 50-80 美元的固定费用。

中国视角：跨境 GPU 租赁的合规成本

中国大陆团队使用海外 GPU 云服务时，需额外考虑跨境带宽与合规成本。AWS 中国区的 GPU 实例价格比全球区高约 30%，且需绑定中国大陆营业执照。通过 NordVPN 跨境访问等工具，部分团队选择直接租用 AWS 美东区实例，但需注意数据传输延迟：从上海到美东区的网络延迟约为 180-220 毫秒，对于实时推理场景可能不可接受。

国内云 vs 海外云：延迟与带宽的取舍

阿里云上海节点到用户的延迟低于 10 毫秒，但 A100 库存紧张，2025 年 Q1 的可用率仅为 68%（阿里云《2025 弹性计算服务可用性报告》）。相比之下，Google Cloud 的 A100 在台湾地区的延迟约为 40 毫秒，且可用率超过 90%。对于延迟敏感的 NLP 推理任务，建议优先选择国内云，即使每小时成本高出 15%-20%。

RunPod 与 Replicate：Serverless 平台的成本结构拆解

RunPod 的混合计费模式是当前最具价格竞争力的方案之一：A100 80GB 的按秒计费为每小时 0.79 美元，但需额外支付存储费用（每 GB 每月 0.10 美元）。对于需要加载 40GB 模型的推理任务，存储成本约占总额的 15%。Replicate 则采用调用次数计费，H100 的推理价格为每请求 0.002 美元起步（基于 1,000 Token 输入），适合低频但高并发的场景。

平台对比：成本透明度与计费粒度

vLLM：开源方案，无平台费用，但需自行管理基础设施。对于每月运行 10,000 小时以上的团队，自建 vLLM 集群的成本可比 RunPod 低 40%。
Modal：提供“按秒计费 + 免费存储 10GB”，H100 的每秒成本为 0.00019 美元，但最低计费单位为 10 秒，导致短任务（<5 秒）的浪费率达 100%。
Three Cloud Providers：AWS 的计费粒度最小为 1 秒，Azure 为 1 分钟，GCP 为 1 秒。对于平均推理时间 1.5 秒的任务，Azure 的 1 分钟最低计费使得实际成本为 GCP 的 40 倍。

成本精算模型：从 A100 到 H100 的迁移决策树

根据 2025 年 2 月 MLPerf Inference v4.0 基准测试数据，A100 在 BERT-Large 推理中达到 12,000 样本/秒，H100 达到 35,000 样本/秒，性能差距为 2.92 倍。但 H100 的每小时租金为 A100 的 2.1 倍，因此性价比拐点发生在模型参数量超过 30B 时。对于 7B 以下的小模型，A100 的每小时成本优势更明显。

决策步骤

计算日均推理量：若低于 100,000 次/天，优先选择按需实例或 Serverless。
评估模型大小：参数量超过 30B 或需要 FP8 精度时，H100 的性价比更高。
考虑区域合规：中国大陆团队需检查数据出境合规，优先选择 AWS 中国区或阿里云。
预留实例签约：若月运行时长达 500 小时以上，预留实例的折扣可覆盖 30%-40% 的成本。

未来趋势：H200 与 B100 的定价预期

NVIDIA 计划于 2025 年下半年推出 H200，其 HBM3e 显存带宽提升至 4.8 TB/s，预计租赁价格将比 H100 高 50%-60%。同时，B100 的云端部署预计在 2026 年初落地，早期租赁价格可能高达每小时 5-6 美元。对于预算有限的团队，建议在 2025 年 Q3 之前锁定 H100 的长期合同，因为 H200 上市后 H100 的二手市场价格可能进一步下跌 20%-30%（基于 IDC 2025 年 1 月《GPU 云服务价格预测》）。

中国市场的特殊变量

国内 H100 的官方渠道受限，部分云厂商通过“特供版 H800”或“定制集群”提供等效服务。华为昇腾 910B 在部分推理任务中的性能达到 A100 的 80%，但每小时租赁成本仅为 18 元人民币，适合国产化替代场景。

FAQ

Q1：A100 和 H100 在推理成本上到底差多少？

以 Llama 3 70B 模型为例，A100 需要 4 卡并行，每小时总成本约 4.00 美元（按 1.00 美元/卡计算），推理吞吐量为 800 Token/秒；H100 单卡每小时 2.10 美元，吞吐量 1,500 Token/秒。单位 Token 成本：A100 为 0.00139 美元/千 Token，H100 为 0.00039 美元/千 Token，H100 低 72%。

Q2：Serverless 方案真的比按需租卡便宜吗？

对于日均调用量低于 10,000 次的场景，Serverless 方案总成本低 30%-50%；但当日均调用量超过 100,000 次时，Serverless 的冷启动开销和调用次数计费导致成本高出按需租卡约 20%。临界点在于月运行时长是否超过 300 小时。

Q3：国内团队用海外 GPU 云是否合规？

根据中国《数据安全法》及《个人信息出境标准合同办法》，若模型训练涉及公民个人信息或重要数据，需通过国家网信办的安全评估。纯开源模型推理（如 Llama 3）在非敏感场景下，使用海外 GPU 云通常不违规，但建议咨询法务团队并选择 AWS 中国区作为合规备份。

参考资料

CloudOptimizer. 2025. 全球 GPU 租赁指数（2025 年 3 月）
中国信通院. 2024. 人工智能云服务发展报告
Google Cloud. 2025. Q1 竞价实例可用性报告
NVIDIA. 2024. H100 Tensor Core GPU 白皮书
IDC. 2025. GPU 云服务价格预测（2025-2027）