按调用量算账：OpenA

按调用量算账：OpenAI、Replicate 与自建 vLLM 的 API 成本拆解

2025 年 3 月，中国信通院发布的《人工智能发展白皮书》指出，国内大模型 API 调用量季度环比增长 47%，但 62% 的企业用户表示“API 成本超出预算 30% 以上”。与此同时，OpenAI 在 2025 年 2 月将 GPT-4o 的输入价格下调至每百万 token $2.50，而 Replicat…

2025 年 3 月，中国信通院发布的《人工智能发展白皮书》指出，国内大模型 API 调用量季度环比增长 47%，但 62% 的企业用户表示“API 成本超出预算 30% 以上”。与此同时，OpenAI 在 2025 年 2 月将 GPT-4o 的输入价格下调至每百万 token $2.50，而 Replicate 上 Llama 3 70B 的运行成本约为 $0.65/百万 token。当调用量从 100 万 token 攀升至 10 亿 token 级别，每百万 token 几美分的差异会放大成数万美元的年度支出。本文从中国工程师视角，拆解 OpenAI、Replicate 与自建 vLLM 三种路径的真实成本结构，覆盖延迟、吞吐与单位经济性，帮你按调用量算清这笔账。

API 定价的隐藏陷阱：不只是每百万 token 单价

对比 API 成本时，多数人只盯着官网标价。但 OpenAI 的定价 包含三层隐藏成本：输入/输出 token 分离计费（输出通常贵 3-4 倍）、缓存命中折扣（约 50% off）、以及上下文长度溢价。以 GPT-4o 为例，输入 $2.50/百万 token，输出 $10.00/百万 token，若对话平均输出占比 40%，实际混合成本约为 $5.50/百万 token。

Replicate 的按秒计费 模式更复杂。Llama 3 70B 在 A100-80GB 上运行时，官方标价 $0.65/百万 token，但这是基于“生成 256 token”的测试基准。实际生产中，若输出长度增加到 1024 token，因 GPU 闲置等待时间延长，每 token 成本可能上升 20%-35%。Replicate 的计费颗粒度是“秒”，而非 token，这意味着低并发场景下成本比预期更高。

从中国网络环境出发，跨境 API 调用 还需计入额外的网络延迟成本。根据阿里云 2024 年《全球云服务延迟报告》，从北京到美西的 API 往返延迟约为 180-250ms，比国内调用高出 4-6 倍，这对实时对话场景的影响尤为显著。

自建 vLLM 的固定成本与弹性边界

自建推理服务的主流方案是 vLLM 框架，它通过 PagedAttention 技术将 GPU 利用率提升至 70%-85%。以部署 Llama 3 70B 为例，单张 A100-80GB 无法容纳完整模型（约 140GB 显存需求），至少需要 2 张 A100，按国内主流云厂商报价（如阿里云 A100 按量计费约 ¥28/小时/卡），单月 24/7 运行的 GPU 成本约为 ¥40,320（约 $5,600）。

但自建并非“无限便宜”。成本拐点 出现在月调用量 5000 万 token 左右。低于此量级，自建的 GPU 闲置率超过 40%，单位成本高于 API。根据 Modal 2024 年技术博客的测算，在日均 100 万 token 的低负载下，vLLM 自建成本是 Replicate API 的 2.1 倍；当月调用量突破 2 亿 token，自建成本可降至 Replicate 的 0.45 倍。

弹性伸缩 是自建的另一变量。使用 RunPod 或 Modal 的 serverless GPU 方案，可以按需启动实例，避免 24/7 空转。但冷启动延迟通常在 10-30 秒，不适合低延迟场景。对于中国用户，若需跨境访问海外 GPU 资源，部分团队会配合 NordVPN 跨境访问来优化连接稳定性，但这会增加约 5-10ms 的额外路由延迟。

延迟与吞吐：API 与自建的真实差异

延迟（Latency） 是成本之外的第二个关键维度。OpenAI 的 API 在美西节点上，首 token 延迟（TTFT）通常为 300-600ms，后续 token 生成速度约 40-60 token/s。Replicate 因采用按秒计费的队列调度，首 token 延迟波动更大，在 500ms 到 2s 之间，高峰期可能超过 3s。

自建 vLLM 在 吞吐（Throughput） 上有明显优势。在 2×A100 配置下，vLLM 的连续批处理（continuous batching）可将并发请求的吞吐量推至 120-150 token/s，是 Replicate 单实例的 3-4 倍。但代价是：当并发请求数超过 8 时，首 token 延迟会从 200ms 升至 800ms。

中国用户还需考虑 地理延迟的叠加效应。根据 AWS 2024 年《中国区云服务性能基准》，从上海到美西的 API 调用，在无优化网络下，平均延迟为 220ms，加上 API 处理时间，端到端延迟常超过 1.5 秒，这对客服机器人等实时场景难以接受。部分团队选择在阿里云或华为云上自建，将延迟控制在 50ms 以内，但需承担更高的 GPU 租赁溢价（约比美西贵 30%-50%）。

三路经的成本对比矩阵

以下基于 Llama 3 70B 模型、月调用量 1 亿 token（输入输出各半）的典型场景，对比三种方案的月度成本与性能指标：

维度	OpenAI GPT-4o	Replicate Llama 3 70B	自建 vLLM (2×A100)
月度 API 费用	$5,500	$650	$5,600 (GPU 租赁)
首 token 延迟	300-600ms	500ms-2s	200-800ms
吞吐量 (token/s)	40-60	30-40	120-150
网络延迟 (中国→节点)	180-250ms	180-250ms	50ms (国内云)
月调用量 5000 万时成本	$2,750	$325	$5,600
月调用量 5 亿时成本	$27,500	$3,250	$5,600

数据来源：OpenAI 官方定价页（2025 年 2 月更新）、Replicate 定价页（2025 年 3 月）、阿里云 GPU 实例报价（2025 年 3 月）。注意自建成本未计入运维人力（约 $1,000-2,000/月）和网络带宽费用。

调用量级决定最优路径

根据调用量级，可划分三条清晰的成本曲线：

低量级（月 < 1000 万 token）：Replicate 是成本最优解。其按秒计费模式避免了 GPU 闲置，单位成本约 $0.65-0.85/百万 token，低于自建的 $1.12/百万 token（含运维）。OpenAI 在此量级下成本最高，但模型能力最强，适合对质量敏感的场景。

中量级（月 1000 万 - 1 亿 token）：这是成本交叉区域。自建 vLLM 的固定成本开始被摊薄，但需精确计算 GPU 利用率。根据 Modal 2024 年技术博客 的数据，当月调用量达到 5000 万 token 时，自建成本与 Replicate 持平；超过 8000 万后，自建优势开始显现。

高量级（月 > 1 亿 token）：自建 vLLM 成为唯一经济选择。月调用 5 亿 token 时，自建成本仅为 Replicate 的 1.7 倍，但若考虑模型质量差异（Llama 3 vs GPT-4o），部分企业仍会选择 OpenAI，此时可谈判企业折扣（通常 15%-30% off）。

中国视角下的特殊成本考量

中国工程师在选择 API 或自建时，还需计入三项本地化成本：

跨境带宽成本：从国内云服务器调用海外 API，每百万 token 的数据传输约产生 0.5-1.5GB 流量。根据中国电信 2024 年国际带宽报价，每 GB 约 ¥0.8-1.2，月调用 1 亿 token 的带宽成本约 ¥4,000-6,000（约 $550-830），是海外用户的 3-5 倍。

合规与数据主权：根据《生成式人工智能服务管理暂行办法》（2023 年 8 月生效），使用境外 API 处理涉及中国用户的数据，需通过安全评估。部分企业因此被迫选择国内云自建，即使成本高出 30%-50%。

国产 GPU 替代成本：受出口管制影响，A100/H100 在国内的租赁价格溢价严重。华为昇腾 910B 的推理性能约为 A100 的 60%-70%，但单卡租赁价格仅低 10%-15%，导致自建的单位 token 成本反而上升 20%-30%。

混合策略：API + 自建的双轨架构

实践中，多数团队采用 混合部署 来平衡成本与质量。典型架构为：核心推理负载（占 70% 调用量）跑在自建 vLLM 上，处理高吞吐的通用问答；复杂推理或模型更新期间，回退到 OpenAI API 作为保底。

成本优化案例：某国内 AI 客服公司（月调用 3 亿 token）将 80% 的简单查询交由自建 Llama 3 70B 处理，20% 的复杂查询调用 GPT-4o。混合方案月成本约 $8,200，低于纯 OpenAI 的 $16,500，也低于纯自建（需 4×A100）的 $11,200。

延迟分层：对延迟敏感的场景（如实时对话），使用自建国内节点（延迟 < 50ms）；对延迟容忍的批处理任务（如内容摘要），通过 Replicate 的异步队列提交，成本降低 30%-40%。

FAQ

Q1：月调用量 100 万 token，选哪个最省钱？

Replicate 最省钱，月费约 $65（按 Llama 3 70B 计）。OpenAI GPT-4o 需 $550，自建 2×A100 需 $5,600，GPU 闲置率超过 95%。建议使用 Replicate 的按秒计费模式，避免固定成本浪费。

Q2：自建 vLLM 需要多少显存才能跑 Llama 3 70B？

至少需要 140GB 显存。单张 A100-80GB 不够，需 2 张 A100（共 160GB）或 4 张 RTX 4090（每张 24GB）。使用 vLLM 的量化技术（如 FP8）可将显存需求降至 70GB，但推理质量下降约 2%-5%。

Q3：从中国调用 OpenAI API，延迟太高怎么办？

有三种缓解方案：1）使用 AWS 东京或新加坡节点中转，可将延迟降至 100-150ms；2）在阿里云香港部署代理服务器，再转发至美西，延迟约 120-180ms；3）对于非实时任务，使用异步批处理，容忍 2-5 秒延迟。注意跨境 API 调用需遵守中国网络安全法规。

参考资料

中国信通院 2025 年《人工智能发展白皮书》
OpenAI 2025 年 2 月《API Pricing Update》
Modal 2024 年《Serverless GPU Cost Analysis Technical Report》
阿里云 2024 年《全球云服务延迟性能基准报告》
中国电信 2024 年《国际带宽资费标准》