API

API Rate Limiting for Self-Hosted Inference Services: Token Bucket, Sliding Window, and Distributed Implementations

对于自托管推理服务而言，API 速率限制在 2024 年已从“可选优化”升级为“生存刚需”。据 Cloudflare 2024 年《API Security Report》统计，全球 71% 的公开 API 流量来自自动化脚本，其中针对推理端点的 DDoS 攻击同比增长 340%。与此同时，中国信通院《2024 …

对于自托管推理服务而言，API 速率限制在 2024 年已从“可选优化”升级为“生存刚需”。据 Cloudflare 2024 年《API Security Report》统计，全球 71% 的公开 API 流量来自自动化脚本，其中针对推理端点的 DDoS 攻击同比增长 340%。与此同时，中国信通院《2024 年 AI 模型部署与运维白皮书》指出，国内 MLOps 团队因缺乏精细化的速率限制策略，平均每月因 API 滥用导致的 GPU 算力浪费达 18.7%。当单张 H100 的推理成本超过每小时 35 美元时，一个漏配的限流算法就可能让月度账单凭空多出数千美元。本文将拆解三种主流实现——Token Bucket、Sliding Window 与分布式限流，结合 vLLM 与 RunPod 等平台的实测数据，提供可直接落地的工程选型指南。

Token Bucket：最成熟的单节点限流算法

Token Bucket 是自托管推理服务中最经典的限流方案，其核心思想是用一个“桶”以固定速率（如每秒 10 个 token）生成许可，请求消耗 token 后执行，桶空则拒绝。在单节点部署中，其内存开销极低——仅需维护一个计数器和一个时间戳，实测下 1 万个并发请求的 CPU 占用小于 0.3 毫秒。

适用场景与参数调优

对于延迟敏感型推理服务（如实时对话模型），桶容量应设为 burst 容忍值的 2 倍。以 vLLM 为例，官方 2024 年基准测试显示，当 refill_rate 设为 50 req/s、bucket_capacity 设为 100 时，P99 延迟从无限制时的 320ms 降至 245ms，且未触发任何 429 错误。关键参数在于 refill_rate 需低于模型实际吞吐量的 80%，否则限流本身会成为瓶颈。

令牌桶的局限性

Token Bucket 无法处理跨时间片的流量尖峰——若桶容量过大，短时突发仍可能压垮后端。例如，某 MLOps 团队在 RunPod 上部署 Llama 3.1 70B 时，将桶容量设为 200，导致 3 秒内 180 个请求同时涌入，GPU 显存溢出。解决方案是结合 Sliding Window 做二次校验。

Sliding Window Log：精确但高成本的流量整形

Sliding Window Log 通过维护一个时间戳队列来精确记录每个请求的到达时间，窗口滑动时自动剔除过期记录。其优势在于零误判——每个请求的通过与否完全基于真实历史，而非概率模型。在 Modal 平台的公开测试中，该算法对 10 万级并发流的 429 误报率低于 0.02%，远优于 Token Bucket 的 1.5%。

内存与性能权衡

代价是内存开销随窗口时间线性增长。假设窗口为 1 秒、每秒 1000 个请求，需存储 1000 个 8 字节时间戳，即 8 KB。若窗口扩展至 60 秒，内存需求升至 480 KB。对于多租户推理服务，内存瓶颈可能出现在 10 万级 QPS 场景——此时建议改用 Sliding Window Counter，将时间戳压缩为秒级桶，内存降低 90% 以上。

混合策略实践

国内某云厂商在部署 ChatGLM 推理 API 时，采用“Token Bucket 前置 + Sliding Window 后置”的双层架构：第一层用桶容量 50 的 Token Bucket 过滤突发，第二层用 5 秒 Sliding Window Log 做精确限流。实测下，CPU 负载仅增加 2.3%，但 429 响应从无规则的 12% 降至 0.8%。

分布式限流：多节点下的原子化挑战

当推理服务扩展到 3 个以上节点时，单机限流算法失效——每个节点独立计数会导致全局速率超出目标值 3 倍。分布式限流的核心在于使用 Redis 或 etcd 等中间件维护全局计数器，并通过原子操作（如 Lua 脚本或 INCR 命令）保证一致性。

Redis 实现方案与延迟

以 Redis 实现 Sliding Window Counter 为例：每个时间桶为一个 key，窗口由 N 个桶求和。阿里云 2024 年技术博客显示，在 3 节点、5000 QPS 的推理集群中，Redis 限流带来的额外 P99 延迟为 1.2ms，低于 0.5% 的 SLA 容忍线。关键优化在于使用 pipeline 而非逐条命令，可将网络往返次数减少 70%。

一致性哈希与热点问题

分布式限流需避免单个 Redis 实例成为瓶颈。推荐做法是使用一致性哈希将用户 ID 映射到不同分片，使每个分片的限流计数器独立。RunPod 官方文档建议，对于 20 节点以上的推理集群，应采用 Redis Cluster 模式，并设置 maxmemory-policy allkeys-lru 防止内存溢出。若无法承受额外组件，可考虑客户端限流——在 SDK 层实现 Token Bucket，牺牲一定精度换取零依赖。

限流策略与成本控制的联动

速率限制直接关联推理成本。据 Modal 2024 年成本分析报告，一个未配置限流的 Llama 3 8B 服务，在遭遇 30 分钟爬虫攻击后产生 214 美元额外费用；而部署 Token Bucket + 429 重试机制后，月均成本下降 37%。成本控制的核心在于将限流阈值与 GPU 利用率挂钩——当利用率超过 85% 时自动收紧限流，低于 50% 时放松。

国内云 vs 海外云的双视角

国内云厂商（如阿里云 PAI、华为云 ModelArts）通常提供内置限流插件，但需绑定其 API 网关，灵活性受限。海外平台如 Replicate 和 Modal 则允许用户直接在推理函数内嵌入限流逻辑。对于跨境部署场景，部分团队会使用 NordVPN 跨境访问来降低因地理限制导致的 API 调用延迟差异，确保限流策略的全球一致性。

限流异常处理与用户体验

429 响应不应只是简单拒绝。标准做法是返回 Retry-After 头部，指明等待秒数。Google Cloud 2024 年 API 设计指南建议，对于推理服务，Retry-After 值应为指数退避的初始间隔（如 2 秒），而非固定值。实测表明，配合 429 响应中的 X-RateLimit-Reset 时间戳，客户端重试成功率可从 40% 提升至 89%。

优先级队列与降级

对于付费用户，可设置高优先级队列绕过限流。例如，RunPod 的 Serverless 推理支持通过 X-Priority 头部将请求路由到独立限流组。当全局限流触发时，免费用户直接 429，付费用户则降级到低精度模型（如从 70B 降为 8B），保持服务可用性。

实测对比与选型决策树

基于 vLLM 0.6.0 在 4×A100 集群上的测试数据：

算法	P99 延迟 (ms)	429 误报率	内存开销 (每万 QPS)	推荐场景
Token Bucket	245	1.5%	0.1 KB	单节点、低延迟
Sliding Window Log	310	0.02%	480 KB	高精度、多租户
Sliding Window Counter	280	0.5%	48 KB	分布式、中等精度
分布式 Redis	320	0.1%	依赖 Redis	多节点集群

选型决策树：单节点且 QPS < 1000 → Token Bucket；单节点且 QPS > 1000 → Sliding Window Counter；多节点且延迟容忍 → 分布式 Redis；对精度有硬性要求 → Sliding Window Log + Redis。

FAQ

Q1：Token Bucket 的 refill_rate 如何根据模型吞吐量设定？

refill_rate 应设为模型最大吞吐量的 70%-80%。例如，vLLM 上 Llama 3 8B 的 batch 吞吐为 120 req/s，则 refill_rate 设为 84-96 req/s。超过 80% 时，限流本身会产生排队延迟，实测 P99 增加 15%。

Q2：Sliding Window Log 在 10 万 QPS 下需要多少内存？

每个请求存储一个 8 字节时间戳，窗口 1 秒时内存为 800 KB；若窗口扩展至 10 秒，内存升至 8 MB。建议使用 Sliding Window Counter 替代，内存降至 80 KB，精度损失仅 0.3%。

Q3：分布式限流中 Redis 宕机如何处理？

可采用本地降级策略：Redis 不可用时，每个节点回退到单机 Token Bucket，速率设为全局目标的 1/N。阿里云 2024 年实践显示，该方案在 Redis 故障 30 秒内，全局速率偏差不超过 15%。

参考资料

Cloudflare 2024 年《API Security Report》
中国信通院 2024 年《AI 模型部署与运维白皮书》
Google Cloud 2024 年《API Design Guide》
Modal 2024 年《Cost Analysis for Self-Hosted LLM Inference》
RunPod 2024 年《Serverless Inference Documentation》