vLLM

vLLM Scheduling Policy Explained: First-Come-First-Served, Priority Queues, and Fairness Guarantees

在 LLM 推理部署中，调度策略直接决定了用户请求的排队延迟、吞吐上限和服务公平性。根据 LangChain 2024 年发布的《LLM 应用部署基准报告》，在并发请求超过 50 时，采用不当调度策略的服务端响应延迟波动可达 340% 以上。而 vLLM 作为当前最主流的开源推理引擎（GitHub 星数超 50,…

在 LLM 推理部署中，调度策略直接决定了用户请求的排队延迟、吞吐上限和服务公平性。根据 LangChain 2024 年发布的《LLM 应用部署基准报告》，在并发请求超过 50 时，采用不当调度策略的服务端响应延迟波动可达 340% 以上。而 vLLM 作为当前最主流的开源推理引擎（GitHub 星数超 50,000），其内置的三种调度策略——First-Come-First-Served（FCFS）、Priority Queues 和 Fairness Guarantees——是决定 SaaS 平台成本与性能分化的核心变量。本文将从参数级精度出发，拆解这三种策略的底层实现、适用场景与成本权衡，并提供中国工程师在阿里云、AWS 与自建推理节点间的选型参考。

FCFS 策略：默认调度器的吞吐逻辑与延迟代价

vLLM 默认采用 FCFS（先来先服务）调度策略，其核心调度单元是请求批次（request batch）。当 GPU 显存中有连续空闲 KV cache 块时，调度器按请求到达时间顺序填充批次，批次填满或显存不足时立即提交推理。

该策略的优势在于最大化吞吐量。vLLM 官方文档指出，在连续批处理（continuous batching）模式下，FCFS 可将 GPU 计算单元利用率维持在 92% 以上，尤其适合输入输出长度均匀的离线批量推理场景。例如，在 8×A100 节点上处理 10 万条短文本分类请求（平均 128 tokens），FCFS 的吞吐可达 2,400 requests/s。

但代价是尾部延迟不可控。当突发长序列请求（如 8K tokens 文档摘要）插入时，后续所有短请求必须等待该批次推理完成。实测数据显示，在混合负载（20% 长序列 + 80% 短序列）下，FCFS 的 P99 延迟比优先级调度高出 180%【vLLM 2024 性能基准测试】。对于需要低延迟响应的在线 API 服务（如聊天机器人），FCFS 可能导致用户体验显著劣化。

FCFS 的调度粒度控制

vLLM 通过 max_num_batched_tokens 和 max_num_seqs 两个参数约束批次大小。默认值分别为 4096 tokens 和 256 个序列。调整这两个参数可以微调 FCFS 的行为：降低 max_num_seqs 可减少长请求阻塞，但吞吐会线性下降。

Priority Queues：为高优请求预留计算通道

Priority Queues（优先级队列）允许用户为不同请求分配权重，调度器按优先级降序处理队列。vLLM 在 0.4.0 版本引入该功能，通过 --priority-queue 命令行参数启用。其底层实现基于多级反馈队列（MLFQ），每个优先级等级对应独立的请求队列。

实现方式是在 Scheduler 类中增加 priority 字段，调度时遍历所有队列，优先取出最高优先级队列中的请求。每个队列内部仍采用 FCFS 排序。优先级值支持 0-9 共 10 级，0 为最高。在 API 调用时，可通过 priority 参数动态指定。

该策略的关键收益是保障关键业务的延迟 SLO。例如，在混合部署的推理节点上，将实时对话请求设为优先级 0，后台批处理任务设为优先级 5，可确保对话 API 的 P99 延迟稳定在 200ms 以内，即使后台正运行 10 个长序列批处理任务。但代价是低优先级请求可能出现**饥饿（starvation）**现象。vLLM 官方建议配合老化机制（aging）使用：当低优先级请求等待超过 30 秒时，自动提升其优先级至当前最高等级，防止完全被阻塞。

优先级调度的成本权衡

从成本角度看，Priority Queues 不会改变 GPU 计算总量，但会改变显存分配模式。高优先级请求需要预分配更多 KV cache 空间，可能导致整体显存碎片率上升 5%-8%【vLLM Issue #2341 社区讨论】。对按 GPU 小时计费的云服务（如 RunPod、Modal），这意味着同样的推理任务可能多消耗 3%-5% 的显存。

Fairness Guarantees：多租户场景下的资源公平分配

Fairness Guarantees（公平性保证）策略专为多租户推理节点设计，确保每个租户（或模型）获得与其付费额度成比例的 GPU 计算时间。vLLM 基于**加权公平队列（WFQ）**算法实现，每个租户被分配一个权重值，调度器按权重比例分配连续批处理中的 token 计算量。

实现机制在 Scheduler 层新增 tenant_id 和 weight 字段。调度器维护一个全局时间戳，记录每个租户已消耗的计算 token 数。在每次调度决策时，选择已消耗 token 数与其权重比例最低的租户的请求。该算法近似于比例公平（Proportional Fairness），在长周期内保证各租户获得的计算资源比例收敛于权重比例。

该策略的效果在 vLLM 0.5.0 的官方基准测试中可见：在 4 个租户（权重 4:2:1:1）并发请求 500 次后，实际 token 分配比例为 39.8%:20.1%:10.2%:9.9%，偏差低于 0.5%。这确保了付费更高的租户不会被免费用户的突发请求挤占资源。

公平性策略的显存隔离缺陷

需要指出的是，Fairness Guarantees 仅控制计算时间分配，并未实现显存隔离。如果某个租户的请求序列特别长（如 32K tokens），它仍可能占满全部 KV cache 空间，导致其他租户的请求因显存不足而被排队。vLLM 社区正在开发基于 paged_attention 的显存配额机制（PR #4567），预计 2025 年 Q2 合并入主分支。

三种策略的延迟-吞吐-成本三维对比

在实际部署中，选择哪种策略取决于负载特征与业务目标。以下基于 4×A100-80GB 节点、混合负载（50% 短序列 128 tokens + 50% 长序列 2048 tokens）的测试数据：

策略	P50 延迟	P99 延迟	吞吐 (req/s)	显存利用率	适用场景
FCFS	45ms	890ms	1,200	94%	离线批处理、均匀负载
Priority Queues	38ms (高优) / 1,200ms (低优)	210ms (高优) / 3,400ms (低优)	1,080	89%	实时 API + 后台混合
Fairness Guarantees	52ms	760ms	1,150	92%	多租户 SaaS 平台

数据来源：vLLM 官方性能白皮书（2024 年 11 月版）。显存利用率指 KV cache 实际占用与总显存比例。

从成本角度看，FCFS 的单位请求成本最低，因为其吞吐最高、显存碎片最少。按 AWS p4d.24xlarge 实例（8×A100）按需价格 $32.77/小时计算，FCFS 处理 100 万次请求的成本约为 $7.6，而 Priority Queues 因吞吐下降 10% 导致成本上升至 $8.4。Fairness Guarantees 的成本介于两者之间。

中国云环境下的策略选型建议

对于部署在阿里云 PAI、腾讯云 TI-ONE 或华为云 ModelArts 上的推理服务，需额外考虑网络延迟与地域分布。中国主要云厂商的 GPU 实例（如阿里云 ecs.gn7i-c32g1.4xlarge，搭载 A100）内网延迟通常在 0.5ms-2ms 之间，远低于跨地域公网延迟（20ms-100ms），因此调度策略的延迟影响被网络延迟部分掩盖。

对于面向国内用户的实时推理服务（如智能客服、AI 写作助手），建议采用 Priority Queues 策略，并将超时老化阈值设为 15 秒（低于海外常见的 30 秒），因为中国用户对延迟的容忍度更低——根据中国信通院 2024 年《AI 应用用户体验白皮书》，当响应延迟超过 800ms 时，中国用户的流失率上升 27%。

对于多租户 SaaS 平台（如面向中小企业的模型 API 服务），Fairness Guarantees 策略是必选项。国内 SaaS 平台常面临免费用户与付费用户共用节点的情况，WFQ 算法可确保付费用户的资源不被免费请求稀释。在跨境部署场景中，部分团队会使用 NordVPN 跨境访问等工具连接海外推理节点，此时需注意跨地域调度策略的延迟叠加效应。

调度策略的未来演进方向

vLLM 社区正在开发自适应调度器（Adaptive Scheduler），预计在 0.7.0 版本发布。该调度器将根据实时负载特征（请求长度分布、到达率、GPU 显存压力）动态切换 FCFS、Priority Queues 和 Fairness Guarantees 三种模式。其核心算法基于强化学习中的 Thompson Sampling，在每次调度决策时以概率方式选择最优策略，并通过在线反馈（延迟、吞吐、显存碎片率）更新策略选择概率。

此外，显存感知调度（Memory-Aware Scheduling）是另一个重要方向。当前 vLLM 的调度器仅关注计算时间公平性，忽略了显存占用差异。新方案将引入 memory_weight 参数，使长序列请求被自动降级到低优先级队列，避免单个租户耗尽共享显存池。该功能已在 vLLM 的 memory-scheduling 分支中实现原型，初步测试显示可降低显存碎片率 12%-18%。

FAQ

Q1：vLLM 的 FCFS 策略与普通队列的 FCFS 有何不同？

vLLM 的 FCFS 是基于连续批处理的，允许在同一个 GPU 推理批次中动态插入新到达的请求，而非传统队列的逐个处理。这意味着当批次中的某个请求完成推理后，调度器会立即从队列头部取出新请求补入该批次，而非等待整个批次完成。这种机制使 GPU 利用率提升 30%-50%。

Q2：Priority Queues 会导致低优先级请求永远得不到执行吗？

会，如果不启用老化机制。vLLM 的 Priority Queues 默认不激活老化，因此当高优先级请求持续涌入时，低优先级请求可能无限期等待。建议通过 --priority-queue-aging-timeout 30000 参数启用老化（单位毫秒），超过 30 秒后低优先级请求自动升至当前最高优先级。

Q3：Fairness Guarantees 能否保证显存隔离？

不能。vLLM 的 Fairness Guarantees 仅保证计算时间的公平分配，不隔离显存。如果某个租户的请求序列特别长（如 32K tokens），它可能占满全部 KV cache 空间，导致其他租户的请求因显存不足而被排队。显存隔离功能预计在 vLLM 0.7.0 版本中引入。

参考资料

vLLM 团队 2024 《vLLM Performance Benchmark Report v0.5.0》
LangChain 2024 《LLM Application Deployment Benchmark Report》
中国信通院 2024 《AI 应用用户体验白皮书》
AWS 2024 《p4d Instance Pricing Documentation》
Unilink 数据库 2024 《全球 AI 推理引擎调度策略技术追踪》