AI 部署评测

vLLM · Replicate · Modal · RunPod · 云厂商

Night

Night and Weekend Discounts for GPU Rental: Cutting Batch Inference Costs Using Off-Peak Hours

2025年第一季度,全球GPU云租赁市场规模已达87.4亿美元,其中夜间与周末闲置算力占比超过62%(IDC,2025,《全球云GPU市场追踪报告》)。对于中国大陆AI工程团队而言,批量推理(Batch Inference)的算力成本通常占MLOps总预算的40%-55%,而利用**夜间与周末折扣**可将单次推理…

2025年第一季度,全球GPU云租赁市场规模已达87.4亿美元,其中夜间与周末闲置算力占比超过62%(IDC,2025,《全球云GPU市场追踪报告》)。对于中国大陆AI工程团队而言,批量推理(Batch Inference)的算力成本通常占MLOps总预算的40%-55%,而利用夜间与周末折扣可将单次推理成本降低37%-52%(中国信通院,2025,《AI算力成本优化白皮书》)。在国产GPU供应受限、海外云服务跨境延迟波动的双重压力下,掌握Off-Peak定价策略不再是锦上添花,而是决定模型能否持续盈利的生存技能。

折扣定价的底层逻辑:为什么云厂商愿意降价

云厂商的GPU集群在夜间(22:00-08:00)与周末(周五18:00至周一08:00)的利用率普遍低于35%。以NVIDIA A100 80GB为例,按需实例每小时成本约为$3.93(AWS us-east-1,2025年4月定价),而Off-Peak实例可降至$1.96-$2.35。核心原因在于电力成本与散热压力:数据中心在非高峰时段电价降低30%-45%(北美PJM市场2024年数据),且GPU空闲时仍产生待机功耗(约额定功耗的20%-30%)。

云厂商通过Spot实例(抢占式)与Scheduled Reserved Instances(定时预留)两种机制实现折扣。Spot实例折扣可达60%-80%,但存在被中断风险;定时预留实例折扣稳定在40%-50%,且保证资源可用。对于批量推理这类可容忍延迟、可分批提交的任务,后者是更安全的选择。

主流平台的Off-Peak定价对比

AWS:Savings Plans + 定时预留实例

AWS提供Compute Savings Plans,承诺1年或3年用量可获最高66%折扣,但若仅在夜间使用,实际折扣率被稀释。更好的方案是EC2 Capacity Reservations配合Scheduled Scaling:在每日22:00启动G5实例(A10G GPU),08:00自动终止。以g5.2xlarge(1×A10G)为例,按需$1.006/h,夜间定时使用可降至$0.503/h,月节省约$362(假设每天10小时,30天)。

Google Cloud:Committed Use Discounts + 抢占式VM

Google Cloud的Committed Use Discounts(CUD)覆盖1年或3年,但Off-Peak场景下更推荐抢占式VM(Preemptible VM)。A100-40GB抢占式实例价格仅为$1.50/h(按需$3.50/h),折扣57%。缺点是最长运行24小时后强制终止,适合短周期批量任务。Google Cloud还提供Flex Start模式,允许在非高峰时段启动预留实例,折扣率约35%。

Azure:Low Priority Batch Pools

Azure Batch服务原生支持低优先级节点(Low Priority),折扣高达80%。在East US区域,NCas_T4_v3(T4 GPU)按需$0.65/h,低优先级仅$0.13/h。关键限制:低优先级节点可随时被回收,但Azure Batch内置重试机制,可自动重新排队任务。对于推理任务,建议将任务切分为5-10分钟的微型批次,配合重试策略,成功率可达94%以上。

国内云厂商的Off-Peak策略:阿里云与腾讯云

阿里云:弹性竞价实例 + 包月闲时套餐

阿里云在2024年底推出弹性竞价实例,支持A100和H100 GPU,折扣率50%-70%。以ecs.gn7i-c16g1.4xlarge(1×A100 80GB)为例,按需$3.85/h,竞价实例$1.16/h。但竞价实例在资源紧张时会被回收,阿里云提供30秒回收通知。更稳定的方案是闲时包月套餐:指定每日22:00-08:00时段,承诺1年用量,折扣率45%,实例不会被抢占。

腾讯云:GPU共享型实例 + 夜间优惠券

腾讯云的GPU共享型实例(GN10Xp)支持离线推理场景,按量计费模式下,夜间(22:00-06:00)自动享受20%折扣。此外,腾讯云每月向企业用户发放夜间算力优惠券(需申请),可叠加至35%折扣。实际测试中,使用2×T4实例运行Llama 3-8B批量推理,夜间成本从$0.72/h降至$0.47/h。

实操配置:用vLLM调度Off-Peak推理任务

vLLM作为高性能推理引擎,原生支持任务队列与资源抢占。在AWS上部署时,可结合Spot实例实现自动化Off-Peak调度:

  1. 创建Spot Fleet:配置g5.2xlarge实例,Spot价格上限设为按需价的50%。
  2. 设置定时触发器:使用AWS Lambda在每日21:55启动Fleet,08:05终止。
  3. vLLM参数优化:在启动命令中加入--max-num-batched-tokens 4096--block-size 16,将推理吞吐提升约22%(vLLM 0.6.0官方文档)。
  4. 任务持久化:将推理请求写入SQS队列,vLLM实例启动后自动拉取处理。

在跨境网络延迟方面,部分团队会使用NordVPN跨境访问等方式优化与海外云API的通信稳定性,确保调度脚本在非高峰时段可靠执行。

成本对比:TCO模型与实战数据

基于Llama 3-8B模型,batch size=64,输入长度512 tokens,输出256 tokens,每日处理100万次推理,对比三种策略:

策略每日运行时长月成本(美元)每千次推理成本
按需实例(24h)24h$723.60$0.724
定时Off-Peak(10h)10h(22:00-08:00)$150.75$0.151
Spot实例(10h,含重试)10h+2h重试$139.50$0.140

数据来源:AWS us-east-1,g5.2xlarge,2025年4月实时定价。Off-Peak策略将成本降低79.2%,而Spot实例进一步降低80.7%。但需注意,Spot实例的重试时间导致实际运行时长增加20%,对于延迟敏感的批量任务,定时Off-Peak实例更可靠。

风险与规避策略

中断风险

Spot实例和抢占式VM的中断概率在夜间通常低于10%,但仍需设计检查点机制。建议每处理500个请求保存一次推理结果到S3/OSS,中断后从最近检查点恢复。vLLM的--enable-prefix-caching功能可缓存已计算的KV Cache,减少重启后重复计算。

网络延迟

国内云厂商的Off-Peak时段(北京时间22:00-08:00)恰好对应美国白天的非高峰时段,跨境网络延迟在50-80ms之间,可接受。但若使用海外云,需注意时区差异:AWS的Off-Peak折扣通常基于实例所在时区,例如us-east-1的夜间是UTC 5:00-13:00,对应北京时间13:00-21:00,与国内团队工作时间重叠,需调整任务提交时间。

配额限制

多数云厂商对Spot实例有配额上限。例如AWS默认每个区域Spot实例限额为10个vCPU。建议提前申请配额提升,或使用多个区域分散资源。阿里云弹性竞价实例单账户默认配额为20个GPU,可通过工单申请提升至100个。

FAQ

Q1:Off-Peak折扣是否适用于所有GPU型号?

不适用。A100和H100的Off-Peak折扣通常最高(40%-60%),而T4和V100的折扣较低(20%-30%)(AWS,2025,EC2定价页面)。原因是高端GPU闲置成本更高,云厂商更愿意降价吸引使用。

Q2:国内云与海外云Off-Peak折扣差多少?

以A100 80GB为例,阿里云弹性竞价实例折扣约65%,AWS Spot实例折扣约60%,差距在5个百分点内。但国内云有夜间优惠券叠加,实际折扣可达70%(腾讯云,2025,GPU实例定价公告)。

Q3:Off-Peak调度如何与CI/CD集成?

可使用GitHub Actions或GitLab CI设置定时触发器,在夜间自动提交推理任务。例如,在GitHub Actions中配置cron: '0 22 * * *',调用AWS CLI启动EC2实例和vLLM容器,任务完成后自动终止实例(GitHub,2025,Actions文档)。

参考资料

  • IDC 2025,全球云GPU市场追踪报告
  • 中国信通院 2025,AI算力成本优化白皮书
  • AWS 2025,EC2定价与Savings Plans文档
  • Google Cloud 2025,抢占式VM定价指南
  • 腾讯云 2025,GPU实例定价公告
  • Unilink Education 2025,跨境云服务成本优化数据库