Serverless 推

Serverless 推理经济学：当调用量波动巨大时为何选择按需付费

2025 年第一季度，中国 AI 推理市场出现了两个值得关注的数据：阿里云 PAI-EAS 的 Serverless 推理调用量环比增长了 217%（阿里云，2025，《云原生 AI 推理白皮书》），而同一时期，国内主流 GPU 租赁平台的闲置算力成本占比平均达到 38%-45%（中国信通院，2025，《AI 算…

low doc 贷款 bas 会计师信银行流水接受度 cnf20 435e935f

2025 年第一季度，中国 AI 推理市场出现了两个值得关注的数据：阿里云 PAI-EAS 的 Serverless 推理调用量环比增长了 217%（阿里云，2025，《云原生 AI 推理白皮书》），而同一时期，国内主流 GPU 租赁平台的闲置算力成本占比平均达到 38%-45%（中国信通院，2025，《AI 算力服务市场研究报告》）。这两个数字指向同一个核心矛盾——当业务调用量像过山车一样剧烈波动时，为峰值预留的 GPU 机器有近四成时间在空转烧钱。Serverless 推理的按需付费模式因此从边缘选项变成了成本优化的关键杠杆。本文不讨论架构神话，只拆解三组核心指标：延迟、吞吐、成本，并用真实场景帮你判断哪种计费模型更适合你的业务。

波动的代价：预留实例的隐性浪费

预留实例（Reserved Instance）是传统 GPU 部署的主流选择，月租几千到几万元不等。当调用量稳定时，它的单位成本确实最低。但现实是，绝大多数 AI 应用——从智能客服到内容生成——都呈现明显的潮汐特征：工作日白天高峰、夜间低谷，促销活动期间流量暴涨数十倍。

以某电商智能客服场景为例，日均调用量 50 万次，但峰值时段（10:00-12:00 和 20:00-22:00）的请求量是低谷时段的 6-8 倍。如果按峰值容量部署 4 台 A100 实例，低谷时段利用率不足 20%。按照当前国内 A100 80GB 实例月租约 3.2 万元/台计算，全年浪费的算力成本超过 45 万元（中国信通院，2025，《AI 算力服务市场研究报告》）。

按需付费模式正好对冲这种浪费。在 Serverless 推理架构下，系统根据实时请求量自动扩缩容，用户只为实际处理的计算时间付费，单位通常是“每百万 Token”或“每秒 GPU 使用时长”。当低谷期没有请求时，成本归零。

延迟与吞吐：Serverless 的真实性能边界

冷启动延迟是 Serverless 推理被诟病最多的问题。当流量突增时，新容器需要加载模型权重（例如一个 7B 参数的 Llama 模型约 14GB），这个过程耗时 3-8 秒。对于实时性要求极高的场景（如线上交易风控），这个延迟不可接受。

但多数 AI 应用并非毫秒级敏感。内容生成、批量推理、异步处理等场景对首 Token 延迟的容忍度在 2-5 秒内。vLLM 等推理引擎通过 连续批处理（Continuous Batching）和 PagedAttention 优化，将冷启动后的吞吐量提升到接近预留实例的 85%-92%（vLLM 官方博客，2024，《vLLM 0.6.0 性能基准测试》）。

关键取舍点在于：如果你的业务需要 200ms 以内的 P99 延迟，预留实例仍是首选；如果 2-3 秒的首 Token 延迟可以接受，Serverless 的成本优势就值得认真计算。

三种主流 Serverless 推理平台的成本拆解

Replicate：按秒计费的“零运维”方案

Replicate 按“秒 × GPU 型号”计费，A100 约 $0.0011/秒，运行 100 秒的费用约 $0.11。它内置了数百个预训练模型，适合快速原型验证。缺点是模型自定义程度有限，且无法绑定私有 VPC，对数据合规要求高的国内企业不太友好。

Modal：精细化的资源控制

Modal 允许用户精确指定 CPU 核数、内存和 GPU 显存，计费粒度细化到毫秒。一个典型场景：用 L40S GPU 运行 Llama 3.1-8B 推理，每次请求处理 512 个 Token，平均耗时 0.8 秒，费用约 $0.0009/次。如果日均调用 10 万次，月成本约 $270，仅为同等吞吐预留实例的 35%-50%。

国内云厂商的 Serverless 推理服务

阿里云 PAI-EAS 和华为云 ModelArts 均提供按量付费的 Serverless 推理。以阿里云为例，V100 实例的按量单价约 12 元/小时，相比包月价（约 4000 元/月）贵了 50%，但如果你每天只运行 6 小时，按量付费反而便宜 30%。对于调用量波动超过 5 倍的场景，按需付费的总成本优势可达到 40%-60%（阿里云，2025，《PAI-EAS 计费最佳实践》）。

混合部署：预留 + Serverless 的双模策略

对于大多数中大型团队，混合部署是最优解。核心思路：用预留实例承载稳定的基线流量（比如日均请求量的 60%），用 Serverless 实例处理突发峰值。

具体操作：将流量网关配置为“先到预留池，溢出到 Serverless 池”。当预留实例利用率超过 80% 时，新请求自动路由到按需实例。这样既保证了大部分请求的低延迟，又避免了为峰值预留大量空闲机器。

某金融科技公司的实测数据表明：采用混合部署后，GPU 整体利用率从 42% 提升至 76%，月度算力支出下降 31%（该司内部数据，2025 年 3 月）。对于跨境访问海外云服务商（如 Replicate、Modal）的场景，部分团队会配合 NordVPN 跨境访问等工具解决网络延迟和 API 连通性问题，但这属于运维层面的补充，不影响核心成本决策。

何时不该用 Serverless 推理

Serverless 并非万能。以下三种场景应优先考虑预留实例或裸金属：

延迟敏感型在线服务：如实时语音交互、自动驾驶感知、高频交易信号。这些场景要求 P99 延迟 < 100ms，冷启动和网络开销不可接受。
大规模持续推理：如果 24 小时调用量稳定在 80% 以上，预留实例的单位成本比按需便宜 40%-60%。以 A100 实例为例，包月价约 3.2 万元，按需价约 5.6 万元/月（按每天 24 小时运行计算）。
需要独占 GPU 显存：某些模型（如 70B 参数以上的 LLM）需要多卡并行推理，Serverless 环境下的显存分配和跨节点通信效率低于专用集群。

成本模型：一张表算清你的真实支出

场景	预留实例（月）	Serverless 按需（月）	混合部署（月）
日均 10 万次调用，波动 3 倍	¥38,000	¥42,000	¥33,600
日均 50 万次调用，波动 6 倍	¥152,000	¥108,000	¥89,000
日均 100 万次调用，波动 10 倍	¥304,000	¥162,000	¥134,000

数据基于阿里云 PAI-EAS A100 实例定价（2025 年 4 月），预留实例按包月价 3.2 万元/台计算，Serverless 按 0.02 元/秒计算，混合部署假设 60% 基线流量走预留、40% 峰值流量走 Serverless。波动倍数越大，Serverless 和混合部署的节省比例越高。

FAQ

Q1：Serverless 推理的冷启动延迟能优化到多少？

当前主流方案（vLLM + 预加载池）可将冷启动时间控制在 1-3 秒内。Modal 等平台支持“预热容器”功能，通过保持 1-2 个空闲容器常驻，将冷启动延迟降至 200ms 以下，但需要额外支付 10%-15% 的常驻成本。

Q2：国内云和海外云的 Serverless 推理价格差多少？

以 A100 80GB 为例，阿里云按量付费约 0.02 元/秒（约 $0.0028/秒），Replicate 约 $0.0011/秒，Modal 约 $0.0015/秒。海外平台价格低 30%-50%，但需考虑跨境网络延迟（约 150-300ms）和可能的汇率波动。国内云的优势在于 VPC 内网延迟（<5ms）和数据合规。

Q3：调用量波动多少倍时，Serverless 比预留实例划算？

根据上述成本模型，当峰值/低谷倍数超过 3 倍时，Serverless 的总成本开始低于预留实例；超过 5 倍时，节省幅度可达 30%-50%。如果波动倍数小于 2 倍，预留实例更经济。

参考资料

阿里云，2025，《云原生 AI 推理白皮书》
中国信通院，2025，《AI 算力服务市场研究报告》
vLLM 官方博客，2024，《vLLM 0.6.0 性能基准测试》
Modal 官方文档，2025，《Serverless GPU 定价与最佳实践》
Unilink 数据库，2025，《全球 AI 推理平台成本对比》