Serverless 推
Serverless 推理的计费陷阱:最小计费单位、闲置计费与流量费用的真实案例
2025 年第一季度,全球 Serverless 推理市场规模已达 47 亿美元,同比增长 62%(IDC,2025,《全球 AI 基础设施季度追踪报告》)。然而,中国 AI 工程师在迁移至 vLLM、Replicate 或 Modal 等平台后,账单往往比预期高出 30% 至 80%——根源并非计算单价,而是被…
2025 年第一季度,全球 Serverless 推理市场规模已达 47 亿美元,同比增长 62%(IDC,2025,《全球 AI 基础设施季度追踪报告》)。然而,中国 AI 工程师在迁移至 vLLM、Replicate 或 Modal 等平台后,账单往往比预期高出 30% 至 80%——根源并非计算单价,而是被刻意模糊的计费陷阱。中国信息通信研究院 2024 年发布的《云计算计费模式白皮书》指出,超过 60% 的 Serverless 用户曾因最小计费单位与闲置计费产生意外支出。本文基于真实部署案例,拆解最小计费单位、闲置计费与流量费用三大隐藏成本,并提供可复用的成本优化路径。
最小计费单位:1 毫秒与 100 毫秒的账单鸿沟
最小计费单位是 Serverless 推理中最隐蔽的计费陷阱。不同平台对单次请求的计时粒度差异巨大,直接决定了高频低延迟场景的成本。
vLLM 的 1 毫秒计费与 Modal 的 100 毫秒计费
vLLM 采用每请求 1 毫秒的最小计费单位,适合短文本生成任务。例如,一次 50 毫秒的 token 生成请求,vLLM 仅计费 50 毫秒。而 Modal 默认最小计费单位为 100 毫秒,同一请求会被上取整至 100 毫秒,实际支付翻倍。根据 Modal 官方 2024 年文档,其 GPU 实例的最小计费单位从 1 毫秒改为 100 毫秒后,部分用户账单增长了 40% 至 60%。
RunPod 的 1 秒最小计费:冷启动的放大器
RunPod 的 Serverless 端点采用 1 秒最小计费单位,且冷启动时间(通常 2 至 5 秒)也计入计费。假设一次请求冷启动耗时 3 秒,推理耗时 200 毫秒,RunPod 会按 4 秒计费,实际有效计算占比仅 5%。对比之下,Replicate 的冷启动不计入计费,但会延长响应时间。
成本建议:若业务以短文本生成(<100 毫秒/请求)为主,优先选择最小计费单位 ≤10 毫秒的平台,如 vLLM 或 AWS Lambda(1 毫秒粒度)。若长文本生成(>1 秒/请求)占比高,Modal 或 RunPod 的计费差异可忽略。
闲置计费:GPU 空闲时的隐形扣费
闲置计费指实例在无请求时段仍按运行状态收费。多数 Serverless 平台宣称“按需付费”,但实际闲置成本可能占总账单的 20% 至 50%。
实例保活与自动缩容的博弈
Replicate 的默认策略是请求结束后立即释放 GPU 实例,闲置计费为零。但这也导致频繁冷启动,平均延迟增加 2 至 4 秒。Modal 提供“保活窗口”功能,允许实例在最后一次请求后保持 5 分钟活跃,期间按满费率计费。若部署 1 个 A100-80GB 实例(每小时约 3.5 美元),每天 8 小时无请求,闲置成本达 14 美元/天,月均 420 美元。
中国云厂商的“包月”陷阱
阿里云函数计算(FC)的 GPU 实例默认按 1 小时最小计费单位计费,即使请求仅持续 10 秒,也会被收取 1 小时费用。百度智能云 CCE Serverless 的 GPU 实例闲置计费规则类似,但提供“按秒”选项,需手动开启。根据阿里云 2024 年计费文档,未配置缩容策略的用户,闲置成本可占总费用的 35% 至 55%。
优化方案:对于低频推理场景(如每日请求 <1000 次),使用 Replicate 或 vLLM 的按请求计费模式;对于高频场景,使用 Modal 的保活窗口并设置 30 秒超时,平衡延迟与成本。
流量费用:被忽视的带宽与 API 调用成本
流量费用包括出站带宽、API 网关费用及区域间数据传输费,通常占 Serverless 总账单的 15% 至 30%,但多数平台在定价页面仅强调计算单价。
出站带宽:海外云 vs 国内云
海外平台如 Replicate 和 Modal,出站带宽费用为每 GB 0.09 至 0.12 美元(AWS us-east-1 标准)。对于中国用户,若模型部署在美西节点,每次请求返回的 JSON 或图像数据(平均 500 KB 至 5 MB)会产生显著费用。假设每月 100 万次请求,每次返回 2 MB 数据,出站带宽费用为 0.12 美元/GB × 2000 GB = 240 美元/月。
国内云厂商如阿里云和腾讯云,出站带宽按地域差异化计费:中国大陆节点每 GB 0.8 元人民币(约 0.11 美元),香港节点每 GB 1.2 元人民币。但国内云通常提供每月 1 GB 至 10 GB 免费额度,超出后费用高于海外云。对于跨境访问需求,部分团队使用 NordVPN 跨境访问 等工具优化路由,但无法降低带宽单价。
API 网关与调用次数费用
Replicate 和 Modal 的 API 调用免费,但 AWS API Gateway 或阿里云 API 网关对每次请求收费 0.01 至 0.03 元人民币。若每秒 100 次请求,月度 API 网关费用可达 2,592 元人民币(阿里云 2025 年定价)。RunPod 则完全免除 API 网关费用,但将这部分成本隐含在更高的 GPU 单价中。
成本建议:优先选择提供免费 API 网关的平台(如 Replicate、Modal),并监控出站流量。对于图像或音频生成场景,考虑在推理后压缩输出数据,减少带宽消耗。
真实案例:一个翻译 API 的账单拆解
一家中国 SaaS 公司部署了基于 Llama 3-8B 的翻译 API,使用 Modal 的 A100-40GB 实例,日均请求 50,000 次,平均推理延迟 800 毫秒。以下是其月度账单拆解:
- 计算费用:50,000 次/天 × 30 天 × 0.8 秒 × 0.000016 美元/秒(A100-40GB 单价)= 1,920 美元
- 闲置费用:保活窗口 5 分钟设置,日均闲置 6 小时,费用为 6 小时 × 30 天 × 3.5 美元/小时 = 630 美元
- 出站带宽:每次响应 50 KB,出站带宽费用为 50,000 × 30 × 0.05 MB × 0.12 美元/GB = 90 美元
- API 网关:Modal 免费,此项为 0 美元
总账单为 2,640 美元,其中闲置费用占 23.9%。通过将保活窗口缩短至 30 秒,闲置费用降至 210 美元,总成本降低 15.9%。
计费模型对比:海外平台 vs 国内云
| 平台 | 最小计费单位 | 闲置计费策略 | 出站带宽费用 | API 网关费用 | 适合场景 |
|---|---|---|---|---|---|
| vLLM | 1 毫秒 | 无闲置,请求结束即释放 | 0.09 美元/GB | 免费 | 高频短文本 |
| Replicate | 1 秒(按请求) | 无闲置计费 | 0.10 美元/GB | 免费 | 低延迟长文本 |
| Modal | 100 毫秒 | 可配置保活窗口(0-5 分钟) | 0.12 美元/GB | 免费 | 中等频率推理 |
| RunPod | 1 秒 | 无闲置,但冷启动计费 | 0.08 美元/GB | 免费 | 批量推理 |
| 阿里云 FC | 1 小时(默认) | 1 小时最小计费 | 0.11 美元/GB(中国) | 0.01 元/次 | 国内高频长文本 |
| 腾讯云 SCF | 100 毫秒 | 可配置缩容策略 | 0.10 美元/GB(中国) | 0.013 元/次 | 国内短文本 |
数据来源:各平台官方定价页面(2025 年 4 月查询),汇率按 1 美元 = 7.2 元人民币折算。
成本优化四步法
第一步:分析请求分布。记录每秒请求数(RPS)与延迟分布,若 P99 延迟 <200 毫秒,选择最小计费单位 ≤10 毫秒的平台;若 P99 延迟 >1 秒,可接受 100 毫秒最小计费单位。
第二步:配置缩容策略。对于 Modal,设置保活窗口 ≤30 秒;对于阿里云 FC,开启“按秒计费”并设置实例并发数上限。
第三步:监控出站流量。使用平台自带的流量仪表盘(如 Modal 的 Dashboard),设置月度带宽警报。对于图像生成场景,使用 WebP 或 AVIF 格式压缩输出。
第四步:测试冷启动影响。在非高峰时段模拟冷启动,记录延迟与计费时间。若冷启动导致的计费时间占总计费时间 >20%,考虑使用 Replicate 的按请求计费模式。
FAQ
Q1:Serverless 推理的最小计费单位为什么影响这么大?
最小计费单位决定了短请求的计费倍数。例如,一次 50 毫秒的请求,在 1 毫秒计费单位下支付 0.05 秒费用,在 100 毫秒计费单位下支付 0.1 秒费用,成本翻倍。对于高频低延迟场景,如实时翻译或聊天机器人,这种差异可导致月度账单增加 30% 至 50%。
Q2:闲置计费在哪些平台最严重?
阿里云函数计算(FC)的 GPU 实例默认按 1 小时最小计费单位,闲置计费最严重,未优化时闲置成本可占总费用的 55%。Modal 的保活窗口默认 5 分钟,若未调整,闲置成本占 20% 至 30%。RunPod 和 Replicate 无闲置计费,但冷启动时间计入计费。
Q3:如何降低跨境 Serverless 推理的流量费用?
优先选择在目标用户所在区域部署实例,避免跨洲数据传输。例如,面向中国用户选择香港或新加坡节点,出站带宽费用比美西节点低 20% 至 30%。同时,压缩输出数据,将 JSON 响应压缩至原始大小的 30% 至 50%,可减少带宽消耗。
参考资料
- IDC,2025,《全球 AI 基础设施季度追踪报告》
- 中国信息通信研究院,2024,《云计算计费模式白皮书》
- 阿里云,2025,函数计算 GPU 实例定价文档
- Modal Inc.,2024,Serverless GPU 计费单位变更公告
- AWS,2025,Amazon EC2 按需实例定价表