Serverless 推
Serverless 推理经济学:当调用量波动巨大时为何选择按需付费
2025 年第一季度,中国 AI 推理市场出现了两个值得关注的数据:阿里云 PAI-EAS 的 Serverless 推理调用量环比增长了 217%(阿里云,2025,《云原生 AI 推理白皮书》),而同一时期,国内主流 GPU 租赁平台的闲置算力成本占比平均达到 38%-45%(中国信通院,2025,《AI 算…
2025 年第一季度,中国 AI 推理市场出现了两个值得关注的数据:阿里云 PAI-EAS 的 Serverless 推理调用量环比增长了 217%(阿里云,2025,《云原生 AI 推理白皮书》),而同一时期,国内主流 GPU 租赁平台的闲置算力成本占比平均达到 38%-45%(中国信通院,2025,《AI 算力服务市场研究报告》)。这两个数字指向同一个核心矛盾——当业务调用量像过山车一样剧烈波动时,为峰值预留的 GPU 机器有近四成时间在空转烧钱。Serverless 推理的按需付费模式因此从边缘选项变成了成本优化的关键杠杆。本文不讨论架构神话,只拆解三组核心指标:延迟、吞吐、成本,并用真实场景帮你判断哪种计费模型更适合你的业务。
波动的代价:预留实例的隐性浪费
预留实例(Reserved Instance)是传统 GPU 部署的主流选择,月租几千到几万元不等。当调用量稳定时,它的单位成本确实最低。但现实是,绝大多数 AI 应用——从智能客服到内容生成——都呈现明显的潮汐特征:工作日白天高峰、夜间低谷,促销活动期间流量暴涨数十倍。
以某电商智能客服场景为例,日均调用量 50 万次,但峰值时段(10:00-12:00 和 20:00-22:00)的请求量是低谷时段的 6-8 倍。如果按峰值容量部署 4 台 A100 实例,低谷时段利用率不足 20%。按照当前国内 A100 80GB 实例月租约 3.2 万元/台计算,全年浪费的算力成本超过 45 万元(中国信通院,2025,《AI 算力服务市场研究报告》)。
按需付费模式正好对冲这种浪费。在 Serverless 推理架构下,系统根据实时请求量自动扩缩容,用户只为实际处理的计算时间付费,单位通常是“每百万 Token”或“每秒 GPU 使用时长”。当低谷期没有请求时,成本归零。
延迟与吞吐:Serverless 的真实性能边界
冷启动延迟是 Serverless 推理被诟病最多的问题。当流量突增时,新容器需要加载模型权重(例如一个 7B 参数的 Llama 模型约 14GB),这个过程耗时 3-8 秒。对于实时性要求极高的场景(如线上交易风控),这个延迟不可接受。
但多数 AI 应用并非毫秒级敏感。内容生成、批量推理、异步处理等场景对首 Token 延迟的容忍度在 2-5 秒内。vLLM 等推理引擎通过 连续批处理(Continuous Batching)和 PagedAttention 优化,将冷启动后的吞吐量提升到接近预留实例的 85%-92%(vLLM 官方博客,2024,《vLLM 0.6.0 性能基准测试》)。
关键取舍点在于:如果你的业务需要 200ms 以内的 P99 延迟,预留实例仍是首选;如果 2-3 秒的首 Token 延迟可以接受,Serverless 的成本优势就值得认真计算。
三种主流 Serverless 推理平台的成本拆解
Replicate:按秒计费的“零运维”方案
Replicate 按“秒 × GPU 型号”计费,A100 约 $0.0011/秒,运行 100 秒的费用约 $0.11。它内置了数百个预训练模型,适合快速原型验证。缺点是模型自定义程度有限,且无法绑定私有 VPC,对数据合规要求高的国内企业不太友好。
Modal:精细化的资源控制
Modal 允许用户精确指定 CPU 核数、内存和 GPU 显存,计费粒度细化到毫秒。一个典型场景:用 L40S GPU 运行 Llama 3.1-8B 推理,每次请求处理 512 个 Token,平均耗时 0.8 秒,费用约 $0.0009/次。如果日均调用 10 万次,月成本约 $270,仅为同等吞吐预留实例的 35%-50%。
国内云厂商的 Serverless 推理服务
阿里云 PAI-EAS 和华为云 ModelArts 均提供按量付费的 Serverless 推理。以阿里云为例,V100 实例的按量单价约 12 元/小时,相比包月价(约 4000 元/月)贵了 50%,但如果你每天只运行 6 小时,按量付费反而便宜 30%。对于调用量波动超过 5 倍的场景,按需付费的总成本优势可达到 40%-60%(阿里云,2025,《PAI-EAS 计费最佳实践》)。
混合部署:预留 + Serverless 的双模策略
对于大多数中大型团队,混合部署是最优解。核心思路:用预留实例承载稳定的基线流量(比如日均请求量的 60%),用 Serverless 实例处理突发峰值。
具体操作:将流量网关配置为“先到预留池,溢出到 Serverless 池”。当预留实例利用率超过 80% 时,新请求自动路由到按需实例。这样既保证了大部分请求的低延迟,又避免了为峰值预留大量空闲机器。
某金融科技公司的实测数据表明:采用混合部署后,GPU 整体利用率从 42% 提升至 76%,月度算力支出下降 31%(该司内部数据,2025 年 3 月)。对于跨境访问海外云服务商(如 Replicate、Modal)的场景,部分团队会配合 NordVPN 跨境访问 等工具解决网络延迟和 API 连通性问题,但这属于运维层面的补充,不影响核心成本决策。
何时不该用 Serverless 推理
Serverless 并非万能。以下三种场景应优先考虑预留实例或裸金属:
- 延迟敏感型在线服务:如实时语音交互、自动驾驶感知、高频交易信号。这些场景要求 P99 延迟 < 100ms,冷启动和网络开销不可接受。
- 大规模持续推理:如果 24 小时调用量稳定在 80% 以上,预留实例的单位成本比按需便宜 40%-60%。以 A100 实例为例,包月价约 3.2 万元,按需价约 5.6 万元/月(按每天 24 小时运行计算)。
- 需要独占 GPU 显存:某些模型(如 70B 参数以上的 LLM)需要多卡并行推理,Serverless 环境下的显存分配和跨节点通信效率低于专用集群。
成本模型:一张表算清你的真实支出
| 场景 | 预留实例(月) | Serverless 按需(月) | 混合部署(月) |
|---|---|---|---|
| 日均 10 万次调用,波动 3 倍 | ¥38,000 | ¥42,000 | ¥33,600 |
| 日均 50 万次调用,波动 6 倍 | ¥152,000 | ¥108,000 | ¥89,000 |
| 日均 100 万次调用,波动 10 倍 | ¥304,000 | ¥162,000 | ¥134,000 |
数据基于阿里云 PAI-EAS A100 实例定价(2025 年 4 月),预留实例按包月价 3.2 万元/台计算,Serverless 按 0.02 元/秒计算,混合部署假设 60% 基线流量走预留、40% 峰值流量走 Serverless。波动倍数越大,Serverless 和混合部署的节省比例越高。
FAQ
Q1:Serverless 推理的冷启动延迟能优化到多少?
当前主流方案(vLLM + 预加载池)可将冷启动时间控制在 1-3 秒内。Modal 等平台支持“预热容器”功能,通过保持 1-2 个空闲容器常驻,将冷启动延迟降至 200ms 以下,但需要额外支付 10%-15% 的常驻成本。
Q2:国内云和海外云的 Serverless 推理价格差多少?
以 A100 80GB 为例,阿里云按量付费约 0.02 元/秒(约 $0.0028/秒),Replicate 约 $0.0011/秒,Modal 约 $0.0015/秒。海外平台价格低 30%-50%,但需考虑跨境网络延迟(约 150-300ms)和可能的汇率波动。国内云的优势在于 VPC 内网延迟(<5ms)和数据合规。
Q3:调用量波动多少倍时,Serverless 比预留实例划算?
根据上述成本模型,当峰值/低谷倍数超过 3 倍时,Serverless 的总成本开始低于预留实例;超过 5 倍时,节省幅度可达 30%-50%。如果波动倍数小于 2 倍,预留实例更经济。
参考资料
- 阿里云,2025,《云原生 AI 推理白皮书》
- 中国信通院,2025,《AI 算力服务市场研究报告》
- vLLM 官方博客,2024,《vLLM 0.6.0 性能基准测试》
- Modal 官方文档,2025,《Serverless GPU 定价与最佳实践》
- Unilink 数据库,2025,《全球 AI 推理平台成本对比》