AI 部署评测

vLLM · Replicate · Modal · RunPod · 云厂商

Self-Hosted

Self-Hosted vs Serverless Inference Cost: A Line-by-Line Breakdown with Llama 3 70B

部署 Llama 3 70B 的成本,正成为中国 AI 工程师在 2025 年第二季度最棘手的决策点。根据中国信通院《人工智能发展报告(2024)》,国内大模型推理集群的 GPU 利用率中位数仅为 38%,意味着每三块 GPU 中就有一块在空转浪费。与此同时,RunPod 发布的社区基准测试显示,Llama 3 …

部署 Llama 3 70B 的成本,正成为中国 AI 工程师在 2025 年第二季度最棘手的决策点。根据中国信通院《人工智能发展报告(2024)》,国内大模型推理集群的 GPU 利用率中位数仅为 38%,意味着每三块 GPU 中就有一块在空转浪费。与此同时,RunPod 发布的社区基准测试显示,Llama 3 70B 在单张 A100-80G 上以 FP16 精度推理时,首 token 延迟约为 320ms,吞吐量仅 8.4 tokens/s。一边是自建集群的高闲置率,一边是 serverless 平台按毫秒计费的弹性成本,工程师们需要一份精确到单次请求的账单对比。本文以 Llama 3 70B 为基准模型,从延迟、吞吐、成本三个维度,拆解自托管与无服务器推理的真实经济账。

自托管推理:硬件成本与利用率陷阱

自托管推理的核心优势在于对硬件的完全控制,但硬件成本的隐性损耗往往被低估。以部署 Llama 3 70B 为例,该模型在 FP16 精度下需要约 140GB 显存,至少需要 2 张 A100-80G(NVLink 连接)或 4 张 RTX 6000 Ada。国内采购一张 A100-80G 的均价在 2024 年第四季度约为 18 万元人民币(含增值税),2 张卡即 36 万元。

利用率是决定实际成本的关键变量。中国信通院 2024 年报告指出,国内企业自建推理集群的日均 GPU 利用率中位数仅为 38%。若按 3 年折旧计算,2 张 A100-80G 的日均硬件成本约为 329 元,但有效利用部分仅 125 元,其余 204 元为闲置成本。

运营成本还包括电力、散热与运维人力。单张 A100-80G 的 TDP 为 400W,双卡系统满载功耗约 1.2kW,按国内工业电价 0.8 元/kWh 计算,日均电费约 23 元。加上运维工程师月薪 2.5 万元(分摊日均 114 元),自托管模式下日均固定支出达 466 元。

Serverless 推理:按需付费的弹性代价

Serverless 平台如 Replicate 和 Modal 提供按秒计费的弹性推理,但按需单价远高于自托管。以 Replicate 的定价为例,Llama 3 70B 的推理费用为每百万 token 输出 2.65 美元(约 19.2 元人民币),输入为每百万 token 0.85 美元(约 6.2 元人民币)。

延迟与吞吐是 serverless 的短板。Replicate 社区实测数据显示,Llama 3 70B 在冷启动(cold start)时首 token 延迟可达 800ms-1.2s,热启动时降至 350ms。相比之下,自托管模式下 vLLM 优化后首 token 延迟可稳定在 280ms 以内。

批处理成本方面,若每秒处理 10 个并发请求,每个请求输出 500 token,serverless 平台每小时费用约为 34.2 美元(约 248 元人民币)。而自托管模式下,相同吞吐量需双卡 A100 满负荷运行,每小时硬件折旧与电费合计约 19.4 元,仅为 serverless 成本的 7.8%。

延迟对比:首 token 与总生成时间

首 token 延迟(TTFT)直接影响用户体验。自托管环境下,使用 vLLM 框架配合 PagedAttention 算法,Llama 3 70B 在单用户请求下的 TTFT 可控制在 250-300ms。而 serverless 平台如 Modal 在热启动状态下 TTFT 约为 320ms,冷启动时高达 1.1s。

总生成时间取决于输出长度与吞吐量。对于 500 token 的完整回复,自托管模式下 vLLM 可达到 12.5 tokens/s 的生成速度,总耗时约 40 秒。Serverless 平台在相同条件下生成速度通常为 8-10 tokens/s,总耗时 50-62 秒。

批处理场景差异更显著。自托管支持动态批处理(dynamic batching),vLLM 可在 batch size 为 8 时维持每 token 生成时间仅增加 15%,吞吐量提升至 85 tokens/s。Serverless 平台通常不支持用户自定义批处理,单请求延迟随并发数线性增长。

吞吐量瓶颈:GPU 显存与带宽限制

显存容量是 Llama 3 70B 推理的首要瓶颈。该模型在 FP16 精度下需 140GB 显存,2 张 A100-80G 通过 NVLink 提供 400GB/s 的卡间带宽,可支持 batch size 为 1 的推理。若需提升吞吐,需引入 4 张 A100-80G 或使用 INT8 量化(显存需求降至 70GB)。

内存带宽决定 token 生成速度。A100-80G 的内存带宽为 2TB/s,理论上 Llama 3 70B 在单卡上每次前向传播需读取全部 140GB 参数,带宽限制下最大 token 生成速度为 14.3 tokens/s。实际 vLLM 测试结果为 12.5 tokens/s,接近理论极限。

Serverless 平台的吞吐受限于共享 GPU 资源。Replicate 的 Llama 3 70B 实例使用 2 张 A100,但多租户环境下实际分配带宽可能降至 1.5TB/s,生成速度仅 9.2 tokens/s。Modal 通过自动缩放(auto-scaling)可在高并发时分配更多实例,但冷启动时间会显著增加延迟。

成本拐点:何时自托管更划算

成本拐点的计算基于日均请求量。假设每个请求平均输出 500 token,自托管模式下日均固定成本 466 元(含折旧、电力、运维),对应免费处理约 5.8 万次请求。Serverless 模式下,每百万输出 token 费用 19.2 元,5.8 万次请求(合计 2900 万 token)费用为 557 元,已超过自托管成本。

实际场景中,大多数生产级应用日均请求量在 1 万-10 万次之间。按 5 万次计算,自托管日均成本 466 元,serverless 成本 480 元,两者接近。但自托管需承担 36 万元的前期硬件投资,而 serverless 无前期成本。

混合方案是务实选择。使用 NordVPN 跨境访问 连接海外 serverless 平台作为弹性补充,国内自托管处理稳定流量,可在不增加硬件投资的情况下应对流量峰值。

中国云厂商 vs 海外平台:地域差异

国内云厂商如阿里云、华为云提供自托管 GPU 实例。阿里云 A100-80G 包月价格为 8.5 万元/卡(按年付),双卡月费 17 万元,远高于海外自建。但其优势在于低延迟网络(国内用户访问延迟 <10ms)与合规性(数据不出境)。

海外 serverless 平台如 Replicate 和 Modal 的定价以美元计价,Llama 3 70B 推理成本约为国内云厂商的 60%。但中国用户需考虑跨境网络延迟(通常 150-200ms)与支付汇率风险。

RunPod 社区提供按秒计费的 GPU 租赁,A100-80G 价格为 0.79 美元/小时(约 5.7 元人民币),双卡每小时 1.58 美元(约 11.4 元人民币)。相比国内云包月模式,RunPod 的弹性计费更适合开发测试阶段。但数据存储与传输需额外付费。

FAQ

Q1:自托管 Llama 3 70B 需要多少张 GPU?

至少需要 2 张 A100-80G 或 4 张 RTX 6000 Ada(48GB)。Llama 3 70B 在 FP16 精度下显存需求约 140GB,单张 A100-80G 仅 80GB 显存,无法容纳完整模型。使用 INT8 量化可降至 70GB,单张 A100-80G 即可运行,但模型精度损失约 2-3%。

Q2:Serverless 平台冷启动延迟有多高?

Replicate 社区 2024 年 12 月测试数据显示,Llama 3 70B 的冷启动首 token 延迟中位数为 1.1 秒,最高可达 2.3 秒。热启动(实例保持活跃)时降至 320ms。建议生产环境设置 keep-alive 超时时间为 10 分钟,可减少 80% 的冷启动事件。

Q3:日均请求量多少时自托管更省钱?

按每个请求输出 500 token 计算,日均请求量超过 5.8 万次时自托管更划算。若使用 INT8 量化降低显存需求,单卡 A100-80G 可承载日均 3 万次请求,自托管成本进一步下降 40%。

参考资料

  • 中国信通院 2024 《人工智能发展报告(2024)》
  • RunPod 2024 《Community Benchmark: Llama 3 70B Inference Performance》
  • NVIDIA 2024 《A100 GPU Datasheet: Memory Bandwidth and TDP Specifications》
  • 阿里云 2024 《GPU 实例规格与定价表》
  • Replicate 2024 《Pricing Page: Llama 3 70B Inference Cost per Token》