Storage

Storage Choices for vLLM Deployment: Local NVMe, Network Block Storage, and Object Storage Compared

vLLM 推理引擎在模型加载和推理过程中对存储 I/O 的依赖远超多数工程师的预期。根据 MLCommons 2024 年发布的 MLPerf Inference v4.0 基准测试数据，一个 70B 参数的 Llama 3 模型在 FP16 精度下需要约 140 GB 显存，而模型从存储加载到 GPU 显存的时…

vLLM 推理引擎在模型加载和推理过程中对存储 I/O 的依赖远超多数工程师的预期。根据 MLCommons 2024 年发布的 MLPerf Inference v4.0 基准测试数据，一个 70B 参数的 Llama 3 模型在 FP16 精度下需要约 140 GB 显存，而模型从存储加载到 GPU 显存的时间，在普通 SATA SSD 上可达 40-60 秒，直接决定了弹性扩缩容场景下的冷启动延迟。中国信通院《2024 年人工智能算力发展白皮书》指出，模型部署环节的存储瓶颈已成为制约推理服务 SLA 达成的关键因素，超过 35% 的 MLOps 团队在首次部署 vLLM 时因存储选型不当导致 P99 延迟超标。本文从中国工程师的实际部署场景出发，对比本地 NVMe、网络块存储和对象存储三种方案在 vLLM 推理工作负载下的性能、成本和运维复杂度。

本地 NVMe：低延迟但牺牲弹性

本地 NVMe SSD 是 vLLM 部署中最直接的存储选项。将模型权重文件直接放置在推理节点的本地 NVMe 盘上，模型加载时无需经过网络，单线程顺序读取速度可达 3500 MB/s 以上（PCIe 4.0 x4 通道）。以阿里云 i3 实例搭载的 3.2 TB 本地 NVMe 为例，加载一个 70B FP16 模型（约 140 GB）的冷启动时间通常控制在 15-25 秒之间，远低于网络存储方案。

物理容量的硬限制

本地 NVMe 的最大缺陷在于容量与计算资源强耦合。一台 8×A100 80 GB 的 GPU 服务器通常只配备 1-2 块 3.84 TB NVMe 盘。当需要同时加载多个不同版本的模型（如 A/B 测试场景），或模型权重膨胀至 300 GB 以上时，本地盘空间立即成为瓶颈。更换更大容量实例意味着同时调整 GPU 和存储规格，灵活性极低。

数据持久性与运维成本

本地 NVMe 的生命周期与计算实例绑定。实例停机或故障后，本地盘数据默认不可恢复。AWS 2023 年的一份运维报告显示，本地实例存储的年故障率约为 0.5%-1.5%，对需要持续运行 30 天以上的推理服务而言，这意味着每年可能发生 2-3 次非计划数据丢失事件。对于需要频繁更新模型权重的团队，每次更新都需要重新同步到所有节点，增加了 CI/CD 流水线的复杂度。

网络块存储：弹性与性能的折中点

网络块存储（如 AWS EBS gp3、阿里云 ESSD PL3）通过专用网络将存储卷挂载到推理节点，实现了存储与计算的解耦。一块 16 TB 的 ESSD PL3 卷可同时挂载到最多 16 台 ECS 实例（共享挂载模式），使多节点共享同一模型权重成为可能。实测数据显示，在 4 路并发读取场景下，ESSD PL3 的吞吐量可达 1.2 GB/s，单次模型加载时间约为 40-60 秒。

性能瓶颈与突发机制

网络块存储的延迟受制于网络带宽和存储后端队列深度。在 vLLM 的高并发推理场景中，如果多个推理进程同时从同一块存储卷读取模型片段，I/O 等待时间会显著增加。华为云 2024 年发布的《云存储性能白皮书》指出，在 16 线程并发随机读场景下，网络块存储的延迟比本地 NVMe 高 3-5 倍（约 2-5 ms vs 0.5-1 ms）。部分云厂商提供突发 IOPS 机制（如 AWS EBS gp3 的基准 3000 IOPS + 突发 16000 IOPS），但突发额度用尽后性能会骤降至基准水平，需要工程师提前规划模型加载窗口。

成本模型与快照优势

网络块存储按容量预付费，不随计算实例启停。一块 2 TB 的 ESSD PL3 卷月费约为 800-1200 元人民币（中国区定价），相比本地 NVMe 的按实例付费模式，在低频推理场景下更具成本优势。此外，块存储快照功能允许在 5 分钟内完成模型权重的备份与回滚，对于需要频繁迭代模型版本的团队，这一特性可大幅降低回退风险。

对象存储：低成本但需缓存层

对象存储（如 AWS S3、阿里云 OSS、腾讯云 COS）是成本最低的存储方案，标准存储单价约为 0.1-0.2 元/GB/月，仅为网络块存储的 10%-20%。然而，对象存储的 API 延迟（首次请求 100-300 ms，后续请求 20-50 ms）和吞吐量限制（单桶默认 3500 PUT/LIST 请求/秒）使其无法直接用于 vLLM 的模型加载。

缓存策略的必要性

直接使用对象存储加载模型会导致灾难性的冷启动延迟。以阿里云 OSS 内网传输为例，下载 140 GB 模型文件的理论带宽上限约为 5 Gbps，实际吞吐受对象大小和并发连接数影响，通常在 200-500 MB/s 之间，冷启动时间可达 5-10 分钟。因此，生产环境必须搭配本地缓存层（如 Alluxio、JuiceFS 或自建 NFS 缓存）。JuiceFS 官方 2024 年测试数据显示，在本地 NVMe 缓存命中率超过 80% 时，模型加载延迟可降至 20 秒以内。

跨区域模型分发

对象存储的全局命名空间特性使其成为多区域部署的理想底座。一个模型权重上传至 AWS S3 美国东部区域后，可在 15 分钟内同步至亚太区域（跨区域复制），延迟仅增加 10-20%。对于需要在中国大陆与海外同时部署推理服务的团队，对象存储配合 CDN 或专线加速，可避免在每个区域重复上传模型。在跨境数据传输场景中，部分团队会使用 NordVPN 跨境访问等工具优化海外 API 调用的网络路径，确保模型下载过程的稳定性。

混合方案：分层存储架构

分层存储架构结合了三种方案的优点：将对象存储作为主存储库，网络块存储作为热数据层，本地 NVMe 作为缓存层。vLLM 的模型加载流程可以设计为：首次请求时从对象存储下载模型到本地 NVMe 缓存，后续请求直接从缓存读取。若本地盘故障，自动回退到网络块存储读取。

缓存淘汰与预加载

基于 LRU（最近最少使用）的缓存淘汰策略在推理场景中表现良好。当本地 NVMe 空间不足时，优先淘汰最近 24 小时内未被请求的模型版本。对于已知的固定模型（如生产环境的 Llama 3 70B），可以在实例启动时通过 init 脚本预加载到缓存中，避免首次请求的冷启动惩罚。字节跳动 2024 年公开的 MLOps 实践显示，采用分层架构后，其内部推理服务的 P99 冷启动延迟从 120 秒降至 28 秒。

成本与性能的量化平衡

以一个部署 4 台 8×A100 实例的生产集群为例：

纯本地 NVMe：存储成本隐含在实例费中（约 15 元/小时/台），无额外存储费，但弹性差。
纯网络块存储：2 TB ESSD PL3 卷月费 1000 元 + 4 台实例挂载费（约 200 元/月），总成本约 1200 元/月，冷启动 50 秒。
分层方案：对象存储 2 TB 月费 200 元 + 本地 NVMe 缓存（无额外成本），冷启动 25 秒，总存储成本仅 200 元/月。

中国云厂商的特殊考量

中国工程师在选择存储方案时，还需考虑国内云厂商的地域差异和合规要求。阿里云 OSS 在华北 2（北京）和华东 2（上海）之间的内网传输延迟约为 3-5 ms，而跨区域（如北京到深圳）延迟可达 20-30 ms。对于需要低延迟模型加载的推理服务，建议将对象存储桶与计算实例部署在同一可用区。

内网带宽与限速策略

腾讯云 COS 的内网上传带宽默认限制为 1 Gbps，需要提交工单申请提升至 10 Gbps。华为云 OBS 的单对象下载速度上限为 50 MB/s，对于大模型加载场景，建议将模型文件分割为 256 MB 的分片并行下载。华为云 2024 年发布的《对象存储最佳实践》建议，在 vLLM 场景下使用 SDK 的并发下载功能，将分片数设置为 16-32 以获得最佳吞吐。

合规数据本地化

根据《网络安全法》和《数据安全法》，涉及用户数据的模型权重文件必须存储在中国大陆境内。使用 AWS 中国区（由光环新网运营）的 S3 服务时，需注意其内网带宽与国际区域不同，标准存储的单价约为 0.15 元/GB/月，但跨区域复制功能受限。对于出海业务，建议在中国大陆使用阿里云 OSS，海外使用 AWS S3，通过数据同步工具（如 rsync 或阿里云 Data Transport）定期同步。

性能基准测试方法论

选择存储方案前，建议团队进行针对性的基准测试。测试应模拟 vLLM 的真实加载行为：单线程顺序读取模型权重文件，记录从开始读取到模型在 GPU 显存完成初始化的总时间。测试变量包括文件大小（7B/13B/70B 模型）、并发加载数（1-4 个模型同时加载）、网络延迟（同可用区 vs 跨可用区）。

关键指标定义

冷启动延迟：实例启动后首次加载模型的耗时，包含存储 I/O 和 GPU 初始化。
吞吐量：单位时间内从存储读取的数据量，单位 MB/s。
P99 加载时间：在 100 次加载测试中，第 99 百分位的延迟值。
缓存命中率：分层架构中，从本地缓存读取模型的比例。

FAQ

Q1：vLLM 部署中，本地 NVMe 和网络块存储哪个更安全？

本地 NVMe 在数据隔离性上更优，因为数据不经过网络传输，但实例故障会导致数据丢失。网络块存储支持快照和跨可用区复制，数据持久性可达 99.999%（AWS EBS 官方 SLA），但存在网络攻击面。对于合规要求高的场景，建议使用网络块存储并启用加密功能，同时定期创建快照，快照间隔建议不超过 24 小时。

Q2：对象存储缓存层应该使用开源方案还是云厂商托管服务？

如果团队有运维能力，开源方案（如 Alluxio、JuiceFS）在成本上更优，月运维成本约 500-2000 元（含服务器费用）。云厂商托管缓存服务（如阿里云 NAS 配合 OSS）月费约 1000-3000 元，但免运维。对于小于 5 人的 MLOps 团队，建议优先使用托管服务，可减少 60% 以上的排障时间。JuiceFS 社区版在 2024 年的测试中，缓存命中率超过 85% 时性能接近本地 NVMe。

Q3：多区域部署时，如何保证模型权重的一致性？

使用对象存储的跨区域复制功能，设置源桶和目标桶的同步策略，同步延迟通常为 5-15 分钟。对于需要秒级一致性的场景，建议使用网络块存储的跨可用区复制（如同步副本），但成本会增加 2-3 倍。阿里云 OSS 的跨区域复制支持版本控制，可追溯历史版本，月费约为存储费用的 10%。

参考资料

中国信通院 2024 《人工智能算力发展白皮书》
MLCommons 2024 MLPerf Inference v4.0 基准测试报告
华为云 2024 《云存储性能白皮书》
字节跳动 MLOps 团队 2024 公开技术分享
阿里云 2024 对象存储最佳实践文档