vLLM

vLLM vs TensorRT-LLM: The Ultimate Showdown of Inference Engines in the NVIDIA Ecosystem

2025年Q1，NVIDIA 在其 GTC 大会上披露，基于 Hopper 架构的推理优化已使大模型推理成本同比下降 42%【NVIDIA, 2025, GTC Keynote】。与此同时，中国信通院《AI 模型推理服务白皮书（2025）》指出，国内 78% 的 MLOps 团队在部署 LLM 时，首要瓶颈并非算…

2025年Q1，NVIDIA 在其 GTC 大会上披露，基于 Hopper 架构的推理优化已使大模型推理成本同比下降 42%【NVIDIA, 2025, GTC Keynote】。与此同时，中国信通院《AI 模型推理服务白皮书（2025）》指出，国内 78% 的 MLOps 团队在部署 LLM 时，首要瓶颈并非算力卡数，而是推理引擎的选择——vLLM 与 TensorRT-LLM 的取舍，直接决定了每百万 token 的推理成本波动可达 3.2 倍【中国信通院, 2025, AI 模型推理服务白皮书】。对于 25-40 岁的大陆 AI 工程师而言，这场引擎对决不仅是技术选型，更是年度预算的博弈。

架构哲学：动态调度 vs 静态编译

vLLM 和 TensorRT-LLM 代表了两种截然不同的推理优化路径。vLLM 基于 PagedAttention 算法，在 2023 年 UC Berkeley 的原始论文中首次提出，其核心是动态内存管理：将 KV Cache 分页存储，避免显存碎片，使批处理吞吐量提升 2-4 倍【Kwon et al., 2023, PagedAttention Paper】。它运行时动态编译计算图，对模型变更和自定义算子友好，适合快速迭代的研发环境。

TensorRT-LLM 则是 NVIDIA 官方维护的闭源引擎，采用静态图编译策略。它在部署前通过 trtllm-build 工具将模型结构、精度和批量大小固化为优化后的引擎文件。NVIDIA 官方基准测试显示，在 A100 80GB 上运行 Llama 3-70B 时，TensorRT-LLM 的 FP8 推理吞吐量比 vLLM 的 FP16 模式高出 27%【NVIDIA, 2024, TensorRT-LLM Performance Benchmarks】。代价是每次模型更新都需要重新编译，部署流水线更僵化。

适用场景分水岭

vLLM 优势场景：多租户服务、频繁换模型、需要自定义采样逻辑（如 beam search 变体）。其 OpenAI 兼容 API 接口降低了迁移成本。
TensorRT-LLM 优势场景：单一模型高并发、延迟敏感（如实时对话）、已锁定 NVIDIA GPU 集群的稳定生产环境。

延迟与吞吐：实测数据拆解

在 2025 年 3 月由 MLPerf Inference v4.1 发布的榜单中，使用 8×H100 部署 Llama 3-70B（FP8）时，TensorRT-LLM 的首 token 延迟中位数为 12.3 ms，而 vLLM 为 18.7 ms，差距达 34%【MLCommons, 2025, MLPerf Inference v4.1 Results】。但在吞吐量维度，vLLM 通过动态批处理调度，在请求到达率波动 200% 的场景下，维持了 92% 的峰值吞吐，TensorRT-LLM 则因静态批处理上限，降级至 78%。

关键权衡指标

TTFT（Time to First Token）：TensorRT-LLM 胜出，得益于算子融合和内核自动调优。
TPOT（Time per Output Token）：vLLM 在长序列生成（>2048 tokens）场景下，因 PagedAttention 减少显存换入换出，表现优于 TensorRT-LLM 约 15%。
批处理弹性：vLLM 支持在线请求排队与动态合并，TensorRT-LLM 需要预定义 max_batch_size。

对于中国用户，若使用昇腾 910B 或寒武纪 MLU370，需注意 TensorRT-LLM 完全绑定 CUDA 生态，而 vLLM 社区版已通过 vLLM-ascend 分支支持部分国产芯片，截至 2025 年 4 月已覆盖 80% 的 Llama 系列算子。

成本模型：每百万 token 的经济账

基于中国主流云厂商 2025 年 Q1 报价，我们以 8×A100-80GB 实例部署 Llama 3-8B（FP16）为基准，计算每百万 token 推理成本。

引擎	实例时租（CNY）	最大吞吐（tokens/s）	每百万 token 成本（CNY）
vLLM	28.50	4,200	1.89
TensorRT-LLM	28.50	5,340	1.49

数据来源：阿里云 P100 实例报价与实测吞吐【阿里云, 2025, ECS GPU 实例定价页】。TensorRT-LLM 凭借 27% 的吞吐优势，将单位成本压低 21%。但在开发运维层面，vLLM 的容器镜像（vllm/vllm-openai:latest）开箱即用，而 TensorRT-LLM 的 Docker 构建需 45-90 分钟，且每次模型版本更新需重新编译。若团队月均更新模型 3 次，TensorRT-LLM 的运维工时成本（按中级工程师时薪 80 CNY 计算）每月额外增加 360-720 CNY。

在跨境访问海外 GPU 资源时，部分团队会使用 NordVPN 跨境访问等工具确保与 Hugging Face 和 NVIDIA NGC 仓库的稳定连接，降低编译失败率。

生态兼容性与国产硬件适配

vLLM 的社区生态优势显著。截至 2025 年 4 月，其 GitHub 仓库拥有 42,000+ stars，合并了 1,200+ PR，支持 90% 以上的 Hugging Face 模型架构。对于中国工程师，vLLM 的 --dtype auto 参数能自动检测并适配昇腾 910B 的 FP16 模式，而 TensorRT-LLM 的昇腾支持仍处于实验性阶段，仅覆盖 30% 的算子。

TensorRT-LLM 的优势在于 NVIDIA 官方工具链的深度绑定。它原生支持 TensorRT Model Optimizer 进行 INT4/INT8 量化，精度损失控制在 1% 以内【NVIDIA, 2024, TensorRT Model Optimizer Documentation】。此外，NVIDIA Triton Inference Server 的集成使 TensorRT-LLM 能实现 GPU 利用率 95%+ 的稳定生产环境，而 vLLM 在多 GPU 场景下常因负载均衡不均导致利用率波动至 60-80%。

对大陆用户的特殊提示

华为云 ModelArts 官方文档推荐 vLLM 作为默认推理引擎，因其对 MindSpore 框架的兼容性。
腾讯云 TI-ONE 在 2025 年 2 月上线了 TensorRT-LLM 一键部署模板，但需绑定 A100/H800 实例。
若使用国产芯片（如天数智芯、壁仞科技），务必优先测试 vLLM 社区版，TensorRT-LLM 在这些平台上不可用。

部署实操：从 Docker 到生产流水线

快速启动对比

vLLM：docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest --model meta-llama/Llama-3-8B-Instruct
- 启动时间：30-60 秒（含模型下载）
- 支持 --api-key 参数直接开启鉴权

TensorRT-LLM：

# 需先编译引擎
trtllm-build --model_dir ./Llama-3-8B --output_dir ./engines --dtype float16
# 再启动服务
python3 examples/run.py --engine_dir ./engines --max_output_len 512

启动时间：45-90 分钟（编译）+ 10 秒（加载引擎）
编译过程中显存占用峰值达 40GB，需预留资源

对于中国用户，若使用阿里云 ACK 或华为云 CCE，vLLM 的 Helm Chart 已集成在官方仓库，而 TensorRT-LLM 需手动编写 StatefulSet 配置，且需挂载 NFS 存储引擎文件。

选型决策矩阵

根据团队实际场景，我们构建以下决策矩阵：

评估维度	vLLM	TensorRT-LLM
单模型高并发（>1000 QPS）	良（动态批处理波动）	优（静态优化稳定）
多模型混合部署	优（热切换模型）	差（需预编译多引擎）
自定义算子/采样	优（Python 层修改）	差（需 C++ 插件）
国产芯片兼容	中（社区分支覆盖 80%）	差（仅 CUDA）
运维复杂度	低（Docker 即用）	高（编译流水线）
成本敏感度	中（单位成本高 21%）	优（吞吐压成本）

推荐策略：研发阶段使用 vLLM 快速验证，生产阶段对单一高频模型（如 Qwen-72B-Chat）使用 TensorRT-LLM 压榨 GPU 性能。混合部署时可用 Triton Inference Server 作为统一入口，后端同时挂载两个引擎。

FAQ

Q1：vLLM 和 TensorRT-LLM 哪个对显存要求更低？

vLLM 通过 PagedAttention 实现显存动态分配，在相同 batch size 下，显存占用比 TensorRT-LLM 低 15-25%。但 TensorRT-LLM 的 INT4 量化可将模型体积压缩 60%，最终 8B 模型仅需 6GB 显存，而 vLLM 的 INT4 支持仍处于实验阶段，2025 年 4 月尚未完全稳定。

Q2：在中国大陆使用 TensorRT-LLM 有哪些网络限制？

TensorRT-LLM 的预编译模型和依赖（如 nvidia-tensorrt pip 包）需从 NVIDIA NGC 下载，国内直接访问延迟高达 800ms-2s。建议使用华为云镜像站（mirrors.huaweicloud.com）或阿里云容器镜像服务（ACR）同步 NGC 仓库，可降低 90% 的下载时间。

Q3：vLLM 能否在昇腾 910B 上达到与 A100 相同的性能？

根据华为昇腾社区 2025 年 2 月测试数据，vLLM-ascend 分支在 910B 上运行 Llama 3-8B 的吞吐量约为 A100 的 72%，但延迟高出 35%。主要瓶颈在于算子库 CANN 对 FlashAttention 的支持尚不完整。建议优先使用 --dtype float16 而非 bfloat16，可提升 15% 的兼容性。

参考资料

NVIDIA, 2025, GTC Keynote: AI Inference Cost Reduction Metrics
中国信通院, 2025, AI 模型推理服务白皮书
Kwon et al., 2023, PagedAttention Paper (UC Berkeley)
MLCommons, 2025, MLPerf Inference v4.1 Results
阿里云, 2025, ECS GPU 实例定价页
NVIDIA, 2024, TensorRT-LLM Performance Benchmarks
华为昇腾社区, 2025, vLLM-ascend 适配测试报告