Self-Hosted

Self-Hosted vs Serverless Inference Cost: A Line-by-Line Breakdown with Llama 3 70B

部署 Llama 3 70B 的成本，正成为中国 AI 工程师在 2025 年第二季度最棘手的决策点。根据中国信通院《人工智能发展报告（2024）》，国内大模型推理集群的 GPU 利用率中位数仅为 38%，意味着每三块 GPU 中就有一块在空转浪费。与此同时，RunPod 发布的社区基准测试显示，Llama 3 …

部署 Llama 3 70B 的成本，正成为中国 AI 工程师在 2025 年第二季度最棘手的决策点。根据中国信通院《人工智能发展报告（2024）》，国内大模型推理集群的 GPU 利用率中位数仅为 38%，意味着每三块 GPU 中就有一块在空转浪费。与此同时，RunPod 发布的社区基准测试显示，Llama 3 70B 在单张 A100-80G 上以 FP16 精度推理时，首 token 延迟约为 320ms，吞吐量仅 8.4 tokens/s。一边是自建集群的高闲置率，一边是 serverless 平台按毫秒计费的弹性成本，工程师们需要一份精确到单次请求的账单对比。本文以 Llama 3 70B 为基准模型，从延迟、吞吐、成本三个维度，拆解自托管与无服务器推理的真实经济账。

自托管推理：硬件成本与利用率陷阱

自托管推理的核心优势在于对硬件的完全控制，但硬件成本的隐性损耗往往被低估。以部署 Llama 3 70B 为例，该模型在 FP16 精度下需要约 140GB 显存，至少需要 2 张 A100-80G（NVLink 连接）或 4 张 RTX 6000 Ada。国内采购一张 A100-80G 的均价在 2024 年第四季度约为 18 万元人民币（含增值税），2 张卡即 36 万元。

利用率是决定实际成本的关键变量。中国信通院 2024 年报告指出，国内企业自建推理集群的日均 GPU 利用率中位数仅为 38%。若按 3 年折旧计算，2 张 A100-80G 的日均硬件成本约为 329 元，但有效利用部分仅 125 元，其余 204 元为闲置成本。

运营成本还包括电力、散热与运维人力。单张 A100-80G 的 TDP 为 400W，双卡系统满载功耗约 1.2kW，按国内工业电价 0.8 元/kWh 计算，日均电费约 23 元。加上运维工程师月薪 2.5 万元（分摊日均 114 元），自托管模式下日均固定支出达 466 元。

Serverless 推理：按需付费的弹性代价

Serverless 平台如 Replicate 和 Modal 提供按秒计费的弹性推理，但按需单价远高于自托管。以 Replicate 的定价为例，Llama 3 70B 的推理费用为每百万 token 输出 2.65 美元（约 19.2 元人民币），输入为每百万 token 0.85 美元（约 6.2 元人民币）。

延迟与吞吐是 serverless 的短板。Replicate 社区实测数据显示，Llama 3 70B 在冷启动（cold start）时首 token 延迟可达 800ms-1.2s，热启动时降至 350ms。相比之下，自托管模式下 vLLM 优化后首 token 延迟可稳定在 280ms 以内。

批处理成本方面，若每秒处理 10 个并发请求，每个请求输出 500 token，serverless 平台每小时费用约为 34.2 美元（约 248 元人民币）。而自托管模式下，相同吞吐量需双卡 A100 满负荷运行，每小时硬件折旧与电费合计约 19.4 元，仅为 serverless 成本的 7.8%。

延迟对比：首 token 与总生成时间

首 token 延迟（TTFT）直接影响用户体验。自托管环境下，使用 vLLM 框架配合 PagedAttention 算法，Llama 3 70B 在单用户请求下的 TTFT 可控制在 250-300ms。而 serverless 平台如 Modal 在热启动状态下 TTFT 约为 320ms，冷启动时高达 1.1s。

总生成时间取决于输出长度与吞吐量。对于 500 token 的完整回复，自托管模式下 vLLM 可达到 12.5 tokens/s 的生成速度，总耗时约 40 秒。Serverless 平台在相同条件下生成速度通常为 8-10 tokens/s，总耗时 50-62 秒。

批处理场景差异更显著。自托管支持动态批处理（dynamic batching），vLLM 可在 batch size 为 8 时维持每 token 生成时间仅增加 15%，吞吐量提升至 85 tokens/s。Serverless 平台通常不支持用户自定义批处理，单请求延迟随并发数线性增长。

吞吐量瓶颈：GPU 显存与带宽限制

显存容量是 Llama 3 70B 推理的首要瓶颈。该模型在 FP16 精度下需 140GB 显存，2 张 A100-80G 通过 NVLink 提供 400GB/s 的卡间带宽，可支持 batch size 为 1 的推理。若需提升吞吐，需引入 4 张 A100-80G 或使用 INT8 量化（显存需求降至 70GB）。

内存带宽决定 token 生成速度。A100-80G 的内存带宽为 2TB/s，理论上 Llama 3 70B 在单卡上每次前向传播需读取全部 140GB 参数，带宽限制下最大 token 生成速度为 14.3 tokens/s。实际 vLLM 测试结果为 12.5 tokens/s，接近理论极限。

Serverless 平台的吞吐受限于共享 GPU 资源。Replicate 的 Llama 3 70B 实例使用 2 张 A100，但多租户环境下实际分配带宽可能降至 1.5TB/s，生成速度仅 9.2 tokens/s。Modal 通过自动缩放（auto-scaling）可在高并发时分配更多实例，但冷启动时间会显著增加延迟。

成本拐点：何时自托管更划算

成本拐点的计算基于日均请求量。假设每个请求平均输出 500 token，自托管模式下日均固定成本 466 元（含折旧、电力、运维），对应免费处理约 5.8 万次请求。Serverless 模式下，每百万输出 token 费用 19.2 元，5.8 万次请求（合计 2900 万 token）费用为 557 元，已超过自托管成本。

实际场景中，大多数生产级应用日均请求量在 1 万-10 万次之间。按 5 万次计算，自托管日均成本 466 元，serverless 成本 480 元，两者接近。但自托管需承担 36 万元的前期硬件投资，而 serverless 无前期成本。

混合方案是务实选择。使用 NordVPN 跨境访问连接海外 serverless 平台作为弹性补充，国内自托管处理稳定流量，可在不增加硬件投资的情况下应对流量峰值。

中国云厂商 vs 海外平台：地域差异

国内云厂商如阿里云、华为云提供自托管 GPU 实例。阿里云 A100-80G 包月价格为 8.5 万元/卡（按年付），双卡月费 17 万元，远高于海外自建。但其优势在于低延迟网络（国内用户访问延迟 <10ms）与合规性（数据不出境）。

海外 serverless 平台如 Replicate 和 Modal 的定价以美元计价，Llama 3 70B 推理成本约为国内云厂商的 60%。但中国用户需考虑跨境网络延迟（通常 150-200ms）与支付汇率风险。

RunPod 社区提供按秒计费的 GPU 租赁，A100-80G 价格为 0.79 美元/小时（约 5.7 元人民币），双卡每小时 1.58 美元（约 11.4 元人民币）。相比国内云包月模式，RunPod 的弹性计费更适合开发测试阶段。但数据存储与传输需额外付费。

FAQ

Q1：自托管 Llama 3 70B 需要多少张 GPU？

至少需要 2 张 A100-80G 或 4 张 RTX 6000 Ada（48GB）。Llama 3 70B 在 FP16 精度下显存需求约 140GB，单张 A100-80G 仅 80GB 显存，无法容纳完整模型。使用 INT8 量化可降至 70GB，单张 A100-80G 即可运行，但模型精度损失约 2-3%。

Q2：Serverless 平台冷启动延迟有多高？

Replicate 社区 2024 年 12 月测试数据显示，Llama 3 70B 的冷启动首 token 延迟中位数为 1.1 秒，最高可达 2.3 秒。热启动（实例保持活跃）时降至 320ms。建议生产环境设置 keep-alive 超时时间为 10 分钟，可减少 80% 的冷启动事件。

Q3：日均请求量多少时自托管更省钱？

按每个请求输出 500 token 计算，日均请求量超过 5.8 万次时自托管更划算。若使用 INT8 量化降低显存需求，单卡 A100-80G 可承载日均 3 万次请求，自托管成本进一步下降 40%。

参考资料

中国信通院 2024 《人工智能发展报告（2024）》
RunPod 2024 《Community Benchmark: Llama 3 70B Inference Performance》
NVIDIA 2024 《A100 GPU Datasheet: Memory Bandwidth and TDP Specifications》
阿里云 2024 《GPU 实例规格与定价表》
Replicate 2024 《Pricing Page: Llama 3 70B Inference Cost per Token》