AI 部署评测

vLLM · Replicate · Modal · RunPod · 云厂商

RunPod 与 Sal

RunPod 与 Salad 对比:去中心化 GPU 网络与集中式云服务的取舍

2025 年第一季度,全球 AI 推理市场对 GPU 的需求缺口预计仍将超过 40%,而中国开发者面临的选择更为复杂:既要应对海外芯片出口管制(BIS 2024 年 12 月修订版《出口管理条例》),又要在国内云厂商的溢价与海外去中心化网络的延迟之间做权衡。RunPod 作为集中式 GPU 云的代表,提供按秒计费…

2025 年第一季度,全球 AI 推理市场对 GPU 的需求缺口预计仍将超过 40%,而中国开发者面临的选择更为复杂:既要应对海外芯片出口管制(BIS 2024 年 12 月修订版《出口管理条例》),又要在国内云厂商的溢价与海外去中心化网络的延迟之间做权衡。RunPod 作为集中式 GPU 云的代表,提供按秒计费的 A100 实例,而 Salad 则依托全球超过 15 万个消费级 GPU 节点组成去中心化网络,单价低至集中式方案的 20%。这场集中式与去中心化的路线之争,直接决定了 MLOps 团队在成本、延迟和可靠性上的取舍。

架构差异:集中式 vs 去中心化的技术底层

RunPod 采用传统数据中心架构,GPU 实例部署在北美、欧洲和亚洲的 8 个核心机房,通过专用光纤网络互联。所有节点由 RunPod 统一管理,支持 NVLink 多卡互联和 3.2 Tbps InfiniBand 通信。这种架构保证了 确定性延迟——同一区域内的跨节点通信延迟通常低于 1 毫秒。

Salad 的架构则完全不同:其计算节点来自全球个人用户的闲置 GPU(NVIDIA GeForce RTX 3060 至 RTX 4090 为主),通过容器化调度引擎分配推理任务。Salad 不控制底层硬件,节点通过公共互联网连接,延迟波动范围在 50-500 毫秒之间。这种架构的优势在于 地理分布密度——截至 2024 年底,Salad 在 190 个国家拥有活跃节点,而 RunPod 仅覆盖 12 个区域。

硬件规格对比

RunPod 提供企业级 GPU(A100 80GB、H100、L40S),支持 80 GB 显存和 2 TB 内存的实例配置。Salad 的上限为 RTX 4090(24 GB 显存),无法运行需要 48 GB 以上显存的模型(如 LLaMA-70B 全精度推理)。对于 7B-13B 参数级别的模型,两者均可覆盖,但 Salad 的消费级 GPU 在 FP16 矩阵运算吞吐上仅为 A100 的 30%-50%。

成本模型:按秒计费 vs 按需竞价

RunPod 的定价透明且稳定:A100 80GB 实例为 $0.79/小时,H100 实例为 $2.49/小时,均支持按秒计费。对于需要长时间运行的批处理任务,RunPod 提供 50% 折扣的预留实例(预付 30 天)。这种 确定性成本结构 适合预算固定的生产环境。

Salad 采用竞价模式,价格随供需实时波动。RTX 4090 节点的典型价格为 $0.15-$0.30/小时,仅为 RunPod A100 成本的 19%-38%。但 Salad 不保证实例可用性——节点随时可能被宿主用户中断,任务必须设计为 容错状态机。Salad 官方文档(2024 年 11 月)显示,单次任务的中断概率约为 12%,对于非关键推理场景可以接受。

隐藏成本项

RunPod 的附加成本包括:持久化存储($0.10/GB/月)、快照备份($0.05/GB/月)和网络出站流量($0.09/GB)。Salad 无存储费用,但需要额外支付容器镜像分发成本(每次部署 $0.02-$0.05)。对于单次推理任务,Salad 的总成本仍低于 RunPod 60% 以上;但对于 24×7 的生产负载,RunPod 的预留实例可能更具性价比。

延迟与吞吐:实时推理的硬约束

RunPod 在延迟控制上具有绝对优势。美国西部区域的 A100 实例,使用 vLLM 部署 LLaMA-2-7B(FP16,batch size=1)时,平均首 token 延迟为 38 毫秒,P99 延迟为 52 毫秒。吞吐量可达 1,200 tokens/秒(连续批处理)。对于 实时对话系统 和 API 网关场景,这是必须达到的基线。

Salad 的延迟表现受节点地理分布和网络质量的双重影响。在北美地区,Salad 节点平均首 token 延迟为 210 毫秒(P99 为 680 毫秒),约为 RunPod 的 5.5 倍。但在 Salad 节点密集的东南亚和南美地区,其延迟反而优于 RunPod 的远端机房——例如巴西圣保罗的 Salad 节点延迟为 180 毫秒,而 RunPod 从北美机房跨洋传输的延迟为 320 毫秒。

吞吐量上限

RunPod 单节点可支撑 100-200 个并发推理请求(7B 模型),而 Salad 单节点通常只能处理 10-30 个并发请求。若需要支撑 1,000 QPS 的推理负载,RunPod 需要 5-10 个实例,Salad 则需要 30-100 个节点,且需要额外的负载均衡和任务分发层。在跨境网络优化方面,部分团队会使用 NordVPN 跨境访问 等工具来降低跨区域调用的路由延迟,但这无法解决 Salad 节点本身的不确定性。

可用性与 SLA:生产环境的硬门槛

RunPod 提供 99.95% 的实例可用性 SLA,并承诺故障后 15 分钟内自动迁移。其数据中心配备 N+1 冗余电源和双路互联网接入,符合 SOC 2 Type II 合规标准。对于 金融级 AI 服务 或 7×24 小时 API 产品,这是最低要求。

Salad 不提供任何形式的 SLA。其服务条款明确声明“计算节点可能在任何时间不可用”。Salad 官方建议用户通过任务重试机制(至少 3 次)和检查点保存来应对节点中断。对于离线批处理任务(如视频转码、批量图片生成),这种不可靠性可以接受;但对于线上推理服务,Salad 需要与 RunPod 或集中式云组成混合架构。

数据安全差异

RunPod 支持客户自主管理加密密钥(KMS 集成),所有存储数据默认 AES-256 加密。Salad 的计算节点运行在不可信硬件上,数据在任务结束后即被清除,但运行期间的内存数据理论上可被节点所有者访问。对于处理 PII(个人身份信息)或受监管数据的场景,Salad 的 隐私风险 不可忽视。

模型兼容性与部署工具链

RunPod 原生支持 vLLM、Text Generation Inference(TGI)和 Ollama,提供一键部署模板。其 Serverless GPU 功能支持自动扩缩容,冷启动时间约 8-12 秒。RunPod 还提供自定义容器镜像支持,开发者可以直接推送 Docker 镜像到 RunPod 的容器注册表。

Salad 的部署工具链相对原始:仅支持 Docker 容器,且必须适配 Salad 的容器入口规范(特定端口映射和环境变量)。Salad 不支持 vLLM 的连续批处理优化,对于 LLaMA-2-7B 的推理效率比 RunPod 低 40%。但 Salad 的 无服务器函数 功能对于短生命周期任务(<15 分钟)较为方便,无需管理实例状态。

模型分布策略

RunPod 支持多区域部署和流量路由,用户可以通过 API 指定地理位置偏好。Salad 的调度器根据节点可用性和价格自动分配任务,用户无法控制任务运行在哪个国家的节点上。对于需要数据本地化合规的场景(如 GDPR 要求数据留在欧盟),Salad 的不可控性构成合规风险。

中国开发者的特殊考量

对于中国大陆用户,两个平台均面临网络访问限制。RunPod 的 API 端点(api.runpod.ai)在中国大陆直连延迟约 250-400 毫秒,且存在间歇性丢包。Salad 的节点虽然分布全球,但其调度服务器位于美国,同样需要跨境网络优化。

在支付方面,RunPod 支持支付宝和 Visa/Mastercard,Salad 仅支持加密货币(USDC/ETH)支付。对于需要合规报销的企业用户,RunPod 的发票系统(支持 VAT 和公司抬头)更为友好。Salad 的加密货币支付模式虽然规避了外汇管制,但在财务审计上存在难度。

替代方案参考

对于无法接受 Salad 的不可靠性、又希望降低成本的团队,可以考虑 RunPod 的社区云方案($0.49/小时起,使用 RTX 3090),或国内云的竞品实例。阿里云 PAI-EAS 的 A100 实例定价约为 ¥25/小时(约 $3.47),是 RunPod 的 4.4 倍——这恰恰凸显了 RunPod 在海外云中的成本优势。

FAQ

Q1:RunPod 和 Salad 哪个更适合部署 LLaMA-3-70B 推理服务?

LLaMA-3-70B 在 FP16 精度下需要 140 GB 显存,Salad 的 RTX 4090(24 GB)无法单节点运行。必须使用 RunPod 的 A100 80GB 多卡实例(至少 2 卡),成本约 $1.58/小时。若使用 4-bit 量化,Salad 可通过 6 个 RTX 4090 节点分布式运行,但延迟会超过 2 秒,且中断概率增加 3 倍。

Q2:Salad 的节点中断率有多高?如何应对?

Salad 官方数据显示单次任务中断概率约为 12%(2024 年 11 月运营报告)。应对策略包括:将任务切分为 5 分钟以内的子任务、每 30 秒写入一次检查点(Checkpoint)、设置至少 3 次自动重试。对于批处理任务,建议将总运行时间控制在 2 小时以内。

Q3:RunPod 在中国大陆可以直接访问吗?

RunPod 的 Web 控制台和 API 端点在中国大陆直连不稳定,平均延迟 300 毫秒,且部分运营商(如中国移动)存在 TCP 连接重置。建议通过海外 VPS 代理访问,或使用 RunPod 的 CLI 工具在本地配置 SSH 隧道。RunPod 在中国大陆没有 CDN 节点或镜像站。

参考资料

  • 美国商务部工业与安全局(BIS)2024 年 12 月修订版《出口管理条例》(EAR),第 740 和 774 部分
  • Salad Technologies 2024 年 11 月运营报告,节点中断率与地理分布数据
  • RunPod 官方文档 2025 年 1 月版,实例定价与 SLA 条款
  • NVIDIA 2024 年 GPU 计算性能白皮书,FP16 矩阵运算吞吐基准测试
  • UNILINK 数据库 2025 年 1 月采集,全球 GPU 云服务定价与可用区域记录