Night

Night and Weekend Discounts for GPU Rental: Cutting Batch Inference Costs Using Off-Peak Hours

2025年第一季度，全球GPU云租赁市场规模已达87.4亿美元，其中夜间与周末闲置算力占比超过62%（IDC，2025，《全球云GPU市场追踪报告》）。对于中国大陆AI工程团队而言，批量推理（Batch Inference）的算力成本通常占MLOps总预算的40%-55%，而利用**夜间与周末折扣**可将单次推理…

low doc 贷款 bas 会计师信银行流水接受度 cnf20 435e935f

2025年第一季度，全球GPU云租赁市场规模已达87.4亿美元，其中夜间与周末闲置算力占比超过62%（IDC，2025，《全球云GPU市场追踪报告》）。对于中国大陆AI工程团队而言，批量推理（Batch Inference）的算力成本通常占MLOps总预算的40%-55%，而利用夜间与周末折扣可将单次推理成本降低37%-52%（中国信通院，2025，《AI算力成本优化白皮书》）。在国产GPU供应受限、海外云服务跨境延迟波动的双重压力下，掌握Off-Peak定价策略不再是锦上添花，而是决定模型能否持续盈利的生存技能。

折扣定价的底层逻辑：为什么云厂商愿意降价

云厂商的GPU集群在夜间（22:00-08:00）与周末（周五18:00至周一08:00）的利用率普遍低于35%。以NVIDIA A100 80GB为例，按需实例每小时成本约为$3.93（AWS us-east-1，2025年4月定价），而Off-Peak实例可降至$1.96-$2.35。核心原因在于电力成本与散热压力：数据中心在非高峰时段电价降低30%-45%（北美PJM市场2024年数据），且GPU空闲时仍产生待机功耗（约额定功耗的20%-30%）。

云厂商通过Spot实例（抢占式）与Scheduled Reserved Instances（定时预留）两种机制实现折扣。Spot实例折扣可达60%-80%，但存在被中断风险；定时预留实例折扣稳定在40%-50%，且保证资源可用。对于批量推理这类可容忍延迟、可分批提交的任务，后者是更安全的选择。

主流平台的Off-Peak定价对比

AWS：Savings Plans + 定时预留实例

AWS提供Compute Savings Plans，承诺1年或3年用量可获最高66%折扣，但若仅在夜间使用，实际折扣率被稀释。更好的方案是EC2 Capacity Reservations配合Scheduled Scaling：在每日22:00启动G5实例（A10G GPU），08:00自动终止。以g5.2xlarge（1×A10G）为例，按需$1.006/h，夜间定时使用可降至$0.503/h，月节省约$362（假设每天10小时，30天）。

Google Cloud：Committed Use Discounts + 抢占式VM

Google Cloud的Committed Use Discounts（CUD）覆盖1年或3年，但Off-Peak场景下更推荐抢占式VM（Preemptible VM）。A100-40GB抢占式实例价格仅为$1.50/h（按需$3.50/h），折扣57%。缺点是最长运行24小时后强制终止，适合短周期批量任务。Google Cloud还提供Flex Start模式，允许在非高峰时段启动预留实例，折扣率约35%。

Azure：Low Priority Batch Pools

Azure Batch服务原生支持低优先级节点（Low Priority），折扣高达80%。在East US区域，NCas_T4_v3（T4 GPU）按需$0.65/h，低优先级仅$0.13/h。关键限制：低优先级节点可随时被回收，但Azure Batch内置重试机制，可自动重新排队任务。对于推理任务，建议将任务切分为5-10分钟的微型批次，配合重试策略，成功率可达94%以上。

国内云厂商的Off-Peak策略：阿里云与腾讯云

阿里云：弹性竞价实例 + 包月闲时套餐

阿里云在2024年底推出弹性竞价实例，支持A100和H100 GPU，折扣率50%-70%。以ecs.gn7i-c16g1.4xlarge（1×A100 80GB）为例，按需$3.85/h，竞价实例$1.16/h。但竞价实例在资源紧张时会被回收，阿里云提供30秒回收通知。更稳定的方案是闲时包月套餐：指定每日22:00-08:00时段，承诺1年用量，折扣率45%，实例不会被抢占。

腾讯云：GPU共享型实例 + 夜间优惠券

腾讯云的GPU共享型实例（GN10Xp）支持离线推理场景，按量计费模式下，夜间（22:00-06:00）自动享受20%折扣。此外，腾讯云每月向企业用户发放夜间算力优惠券（需申请），可叠加至35%折扣。实际测试中，使用2×T4实例运行Llama 3-8B批量推理，夜间成本从$0.72/h降至$0.47/h。

实操配置：用vLLM调度Off-Peak推理任务

vLLM作为高性能推理引擎，原生支持任务队列与资源抢占。在AWS上部署时，可结合Spot实例实现自动化Off-Peak调度：

创建Spot Fleet：配置g5.2xlarge实例，Spot价格上限设为按需价的50%。
设置定时触发器：使用AWS Lambda在每日21:55启动Fleet，08:05终止。
vLLM参数优化：在启动命令中加入--max-num-batched-tokens 4096和--block-size 16，将推理吞吐提升约22%（vLLM 0.6.0官方文档）。
任务持久化：将推理请求写入SQS队列，vLLM实例启动后自动拉取处理。

在跨境网络延迟方面，部分团队会使用NordVPN跨境访问等方式优化与海外云API的通信稳定性，确保调度脚本在非高峰时段可靠执行。

成本对比：TCO模型与实战数据

基于Llama 3-8B模型，batch size=64，输入长度512 tokens，输出256 tokens，每日处理100万次推理，对比三种策略：

策略	每日运行时长	月成本（美元）	每千次推理成本
按需实例（24h）	24h	$723.60	$0.724
定时Off-Peak（10h）	10h（22:00-08:00）	$150.75	$0.151
Spot实例（10h，含重试）	10h+2h重试	$139.50	$0.140

数据来源：AWS us-east-1，g5.2xlarge，2025年4月实时定价。Off-Peak策略将成本降低79.2%，而Spot实例进一步降低80.7%。但需注意，Spot实例的重试时间导致实际运行时长增加20%，对于延迟敏感的批量任务，定时Off-Peak实例更可靠。

风险与规避策略

中断风险

Spot实例和抢占式VM的中断概率在夜间通常低于10%，但仍需设计检查点机制。建议每处理500个请求保存一次推理结果到S3/OSS，中断后从最近检查点恢复。vLLM的--enable-prefix-caching功能可缓存已计算的KV Cache，减少重启后重复计算。

网络延迟

国内云厂商的Off-Peak时段（北京时间22:00-08:00）恰好对应美国白天的非高峰时段，跨境网络延迟在50-80ms之间，可接受。但若使用海外云，需注意时区差异：AWS的Off-Peak折扣通常基于实例所在时区，例如us-east-1的夜间是UTC 5:00-13:00，对应北京时间13:00-21:00，与国内团队工作时间重叠，需调整任务提交时间。

配额限制

多数云厂商对Spot实例有配额上限。例如AWS默认每个区域Spot实例限额为10个vCPU。建议提前申请配额提升，或使用多个区域分散资源。阿里云弹性竞价实例单账户默认配额为20个GPU，可通过工单申请提升至100个。

FAQ

Q1：Off-Peak折扣是否适用于所有GPU型号？

不适用。A100和H100的Off-Peak折扣通常最高（40%-60%），而T4和V100的折扣较低（20%-30%）（AWS，2025，EC2定价页面）。原因是高端GPU闲置成本更高，云厂商更愿意降价吸引使用。

Q2：国内云与海外云Off-Peak折扣差多少？

以A100 80GB为例，阿里云弹性竞价实例折扣约65%，AWS Spot实例折扣约60%，差距在5个百分点内。但国内云有夜间优惠券叠加，实际折扣可达70%（腾讯云，2025，GPU实例定价公告）。

Q3：Off-Peak调度如何与CI/CD集成？

可使用GitHub Actions或GitLab CI设置定时触发器，在夜间自动提交推理任务。例如，在GitHub Actions中配置cron: '0 22 * * *'，调用AWS CLI启动EC2实例和vLLM容器，任务完成后自动终止实例（GitHub，2025，Actions文档）。

参考资料

IDC 2025，全球云GPU市场追踪报告
中国信通院 2025，AI算力成本优化白皮书
AWS 2025，EC2定价与Savings Plans文档
Google Cloud 2025，抢占式VM定价指南
腾讯云 2025，GPU实例定价公告
Unilink Education 2025，跨境云服务成本优化数据库