Serverless 推

Serverless 推理的计费陷阱：最小计费单位、闲置计费与流量费用的真实案例

2025 年第一季度，全球 Serverless 推理市场规模已达 47 亿美元，同比增长 62%（IDC，2025，《全球 AI 基础设施季度追踪报告》）。然而，中国 AI 工程师在迁移至 vLLM、Replicate 或 Modal 等平台后，账单往往比预期高出 30% 至 80%——根源并非计算单价，而是被…

2025 年第一季度，全球 Serverless 推理市场规模已达 47 亿美元，同比增长 62%（IDC，2025，《全球 AI 基础设施季度追踪报告》）。然而，中国 AI 工程师在迁移至 vLLM、Replicate 或 Modal 等平台后，账单往往比预期高出 30% 至 80%——根源并非计算单价，而是被刻意模糊的计费陷阱。中国信息通信研究院 2024 年发布的《云计算计费模式白皮书》指出，超过 60% 的 Serverless 用户曾因最小计费单位与闲置计费产生意外支出。本文基于真实部署案例，拆解最小计费单位、闲置计费与流量费用三大隐藏成本，并提供可复用的成本优化路径。

最小计费单位：1 毫秒与 100 毫秒的账单鸿沟

最小计费单位是 Serverless 推理中最隐蔽的计费陷阱。不同平台对单次请求的计时粒度差异巨大，直接决定了高频低延迟场景的成本。

vLLM 采用每请求 1 毫秒的最小计费单位，适合短文本生成任务。例如，一次 50 毫秒的 token 生成请求，vLLM 仅计费 50 毫秒。而 Modal 默认最小计费单位为 100 毫秒，同一请求会被上取整至 100 毫秒，实际支付翻倍。根据 Modal 官方 2024 年文档，其 GPU 实例的最小计费单位从 1 毫秒改为 100 毫秒后，部分用户账单增长了 40% 至 60%。

RunPod 的 1 秒最小计费：冷启动的放大器

RunPod 的 Serverless 端点采用 1 秒最小计费单位，且冷启动时间（通常 2 至 5 秒）也计入计费。假设一次请求冷启动耗时 3 秒，推理耗时 200 毫秒，RunPod 会按 4 秒计费，实际有效计算占比仅 5%。对比之下，Replicate 的冷启动不计入计费，但会延长响应时间。

成本建议：若业务以短文本生成（<100 毫秒/请求）为主，优先选择最小计费单位 ≤10 毫秒的平台，如 vLLM 或 AWS Lambda（1 毫秒粒度）。若长文本生成（>1 秒/请求）占比高，Modal 或 RunPod 的计费差异可忽略。

闲置计费：GPU 空闲时的隐形扣费

闲置计费指实例在无请求时段仍按运行状态收费。多数 Serverless 平台宣称“按需付费”，但实际闲置成本可能占总账单的 20% 至 50%。

实例保活与自动缩容的博弈

Replicate 的默认策略是请求结束后立即释放 GPU 实例，闲置计费为零。但这也导致频繁冷启动，平均延迟增加 2 至 4 秒。Modal 提供“保活窗口”功能，允许实例在最后一次请求后保持 5 分钟活跃，期间按满费率计费。若部署 1 个 A100-80GB 实例（每小时约 3.5 美元），每天 8 小时无请求，闲置成本达 14 美元/天，月均 420 美元。

中国云厂商的“包月”陷阱

阿里云函数计算（FC）的 GPU 实例默认按 1 小时最小计费单位计费，即使请求仅持续 10 秒，也会被收取 1 小时费用。百度智能云 CCE Serverless 的 GPU 实例闲置计费规则类似，但提供“按秒”选项，需手动开启。根据阿里云 2024 年计费文档，未配置缩容策略的用户，闲置成本可占总费用的 35% 至 55%。

优化方案：对于低频推理场景（如每日请求 <1000 次），使用 Replicate 或 vLLM 的按请求计费模式；对于高频场景，使用 Modal 的保活窗口并设置 30 秒超时，平衡延迟与成本。

流量费用：被忽视的带宽与 API 调用成本

流量费用包括出站带宽、API 网关费用及区域间数据传输费，通常占 Serverless 总账单的 15% 至 30%，但多数平台在定价页面仅强调计算单价。

出站带宽：海外云 vs 国内云

海外平台如 Replicate 和 Modal，出站带宽费用为每 GB 0.09 至 0.12 美元（AWS us-east-1 标准）。对于中国用户，若模型部署在美西节点，每次请求返回的 JSON 或图像数据（平均 500 KB 至 5 MB）会产生显著费用。假设每月 100 万次请求，每次返回 2 MB 数据，出站带宽费用为 0.12 美元/GB × 2000 GB = 240 美元/月。

国内云厂商如阿里云和腾讯云，出站带宽按地域差异化计费：中国大陆节点每 GB 0.8 元人民币（约 0.11 美元），香港节点每 GB 1.2 元人民币。但国内云通常提供每月 1 GB 至 10 GB 免费额度，超出后费用高于海外云。对于跨境访问需求，部分团队使用 NordVPN 跨境访问等工具优化路由，但无法降低带宽单价。

API 网关与调用次数费用

Replicate 和 Modal 的 API 调用免费，但 AWS API Gateway 或阿里云 API 网关对每次请求收费 0.01 至 0.03 元人民币。若每秒 100 次请求，月度 API 网关费用可达 2,592 元人民币（阿里云 2025 年定价）。RunPod 则完全免除 API 网关费用，但将这部分成本隐含在更高的 GPU 单价中。

成本建议：优先选择提供免费 API 网关的平台（如 Replicate、Modal），并监控出站流量。对于图像或音频生成场景，考虑在推理后压缩输出数据，减少带宽消耗。

真实案例：一个翻译 API 的账单拆解

一家中国 SaaS 公司部署了基于 Llama 3-8B 的翻译 API，使用 Modal 的 A100-40GB 实例，日均请求 50,000 次，平均推理延迟 800 毫秒。以下是其月度账单拆解：

计算费用：50,000 次/天 × 30 天 × 0.8 秒 × 0.000016 美元/秒（A100-40GB 单价）= 1,920 美元
闲置费用：保活窗口 5 分钟设置，日均闲置 6 小时，费用为 6 小时 × 30 天 × 3.5 美元/小时 = 630 美元
出站带宽：每次响应 50 KB，出站带宽费用为 50,000 × 30 × 0.05 MB × 0.12 美元/GB = 90 美元
API 网关：Modal 免费，此项为 0 美元

总账单为 2,640 美元，其中闲置费用占 23.9%。通过将保活窗口缩短至 30 秒，闲置费用降至 210 美元，总成本降低 15.9%。

计费模型对比：海外平台 vs 国内云

平台	最小计费单位	闲置计费策略	出站带宽费用	API 网关费用	适合场景
vLLM	1 毫秒	无闲置，请求结束即释放	0.09 美元/GB	免费	高频短文本
Replicate	1 秒（按请求）	无闲置计费	0.10 美元/GB	免费	低延迟长文本
Modal	100 毫秒	可配置保活窗口（0-5 分钟）	0.12 美元/GB	免费	中等频率推理
RunPod	1 秒	无闲置，但冷启动计费	0.08 美元/GB	免费	批量推理
阿里云 FC	1 小时（默认）	1 小时最小计费	0.11 美元/GB（中国）	0.01 元/次	国内高频长文本
腾讯云 SCF	100 毫秒	可配置缩容策略	0.10 美元/GB（中国）	0.013 元/次	国内短文本

数据来源：各平台官方定价页面（2025 年 4 月查询），汇率按 1 美元 = 7.2 元人民币折算。

成本优化四步法

第一步：分析请求分布。记录每秒请求数（RPS）与延迟分布，若 P99 延迟 <200 毫秒，选择最小计费单位 ≤10 毫秒的平台；若 P99 延迟 >1 秒，可接受 100 毫秒最小计费单位。

第二步：配置缩容策略。对于 Modal，设置保活窗口 ≤30 秒；对于阿里云 FC，开启“按秒计费”并设置实例并发数上限。

第三步：监控出站流量。使用平台自带的流量仪表盘（如 Modal 的 Dashboard），设置月度带宽警报。对于图像生成场景，使用 WebP 或 AVIF 格式压缩输出。

第四步：测试冷启动影响。在非高峰时段模拟冷启动，记录延迟与计费时间。若冷启动导致的计费时间占总计费时间 >20%，考虑使用 Replicate 的按请求计费模式。

FAQ

Q1：Serverless 推理的最小计费单位为什么影响这么大？

最小计费单位决定了短请求的计费倍数。例如，一次 50 毫秒的请求，在 1 毫秒计费单位下支付 0.05 秒费用，在 100 毫秒计费单位下支付 0.1 秒费用，成本翻倍。对于高频低延迟场景，如实时翻译或聊天机器人，这种差异可导致月度账单增加 30% 至 50%。

Q2：闲置计费在哪些平台最严重？

阿里云函数计算（FC）的 GPU 实例默认按 1 小时最小计费单位，闲置计费最严重，未优化时闲置成本可占总费用的 55%。Modal 的保活窗口默认 5 分钟，若未调整，闲置成本占 20% 至 30%。RunPod 和 Replicate 无闲置计费，但冷启动时间计入计费。

Q3：如何降低跨境 Serverless 推理的流量费用？

优先选择在目标用户所在区域部署实例，避免跨洲数据传输。例如，面向中国用户选择香港或新加坡节点，出站带宽费用比美西节点低 20% 至 30%。同时，压缩输出数据，将 JSON 响应压缩至原始大小的 30% 至 50%，可减少带宽消耗。

参考资料

IDC，2025，《全球 AI 基础设施季度追踪报告》
中国信息通信研究院，2024，《云计算计费模式白皮书》
阿里云，2025，函数计算 GPU 实例定价文档
Modal Inc.，2024，Serverless GPU 计费单位变更公告
AWS，2025，Amazon EC2 按需实例定价表