模型部署成本控制手册：量

模型部署成本控制手册：量化、缓存与请求合并的降本三板斧

2025年Q1，中国AI模型调用量环比增长37%，但据信通院《2025年AI模型部署成本白皮书》统计，同期企业模型部署平均成本仅下降6.8%，推理成本占总拥有成本的比重从2023年的41%攀升至2025年的58%。这意味着，花在买显卡上的钱正在被花在“跑模型”上的钱快速反超。对于日均处理百万级请求的MLOps团队而言，每1%的推理成本优化，对应的是每年数十万甚至百万级的预算释放。本文从量化、缓存与请求合并三个实操维度，拆解一套可直接落地的成本控制方案。

量化：从FP16到INT4的精度-成本博弈

量化是当前降低模型推理成本最直接的路径。Hugging Face在2025年3月发布的《LLM Inference Benchmark》显示，将LLaMA-3-70B从FP16压缩至INT4，显存占用从140GB降至35GB，单次推理成本下降72%，但MMLU准确率从82.1%下滑至79.8%。2.3个百分点的精度损失，换来了4倍的显存节省和3倍以上的吞吐提升。

量化位宽的选择策略

对于客服、摘要等对精度容忍度高的任务，INT4量化是性价比最优解。vLLM 0.6.0版本已原生支持AWQ和GPTQ两种量化格式，实测在A100-80G上部署Qwen2-72B-INT4，首Token延迟从FP16的2.1秒降至1.3秒，吞吐量从12 req/s提升至38 req/s。但对于代码生成、数学推理等任务，建议保留FP8或INT8——Anthropic内部报告指出，INT4会导致代码生成任务的pass@1准确率下降5-8%。

混合精度部署

不要对整个模型一刀切。敏感层保留高精度的策略在工业界已广泛验证。例如，对Transformer的最后一层LayerNorm和输出层保留FP16，其余层使用INT4，可以在仅增加3%显存的情况下，将精度损失控制到0.5%以内。阿里云PAI平台2024年的实测数据显示，这种混合方案在Qwen-72B上实现了2.7倍的吞吐提升，同时MMLU分数仅下降0.8个百分点。

缓存：用存储换算力，减少重复计算

语义缓存是降低高重复率请求成本的利器。在RAG和对话系统中，用户问题的语义重叠率通常高达40-60%。通过将已生成的回答及其嵌入向量存入缓存，当新请求的语义相似度超过阈值（如0.95）时，直接返回缓存结果，可跳过完整推理流程。

缓存命中率的优化

缓存命中率直接决定成本节省幅度。OpenAI在2024年公开的缓存策略显示，其API的Prompt缓存功能可将长上下文请求的延迟降低50%，成本降低40%。对于自建部署，推荐使用Redis + FAISS的组合方案：Redis存储KV缓存键值对，FAISS管理嵌入向量的近似最近邻搜索。在日均10万次请求的场景下，设置TTL为3600秒、相似度阈值为0.92，实测缓存命中率可达35%，相当于节省了35%的GPU算力。

动态TTL与淘汰策略

静态TTL不适合所有业务。基于请求频次的动态TTL能进一步提升效率：对每小时出现超过10次的“热点问题”设置24小时缓存，对低频问题设置15分钟缓存。字节跳动豆包团队在2024年技术博客中披露，采用LRU + LFU混合淘汰策略后，其对话系统的缓存命中率从28%提升至47%，推理成本下降22%。

请求合并：批处理与动态Batching

动态Batching是提高GPU利用率的核心手段。单次推理的GPU利用率通常只有30-50%，而将多个请求合并为一个Batch，可将利用率提升至80%以上。vLLM和TGI等框架默认支持Continuous Batching，即在推理过程中动态插入新到达的请求，而非等待当前Batch全部完成。

最大Batch Size的调优

Batch Size并非越大越好。显存瓶颈是主要限制因素：以A100-80G为例，部署LLaMA-3-8B-FP16时，最大Batch Size约为64；而部署70B模型时，Batch Size超过8即可能触发OOM。建议通过压力测试找到临界点：从Batch Size=1开始，逐步增加，监控显存占用和TTFT（首Token时间）。当TTFT超过500毫秒或显存占用超过90%时，即为该硬件配置下的最优Batch Size。

请求超时与排队策略

合并请求需要平衡延迟和吞吐。设置最大等待时间是关键：在Web服务场景下，建议将请求排队时间上限设为200毫秒，超时后即使Batch未满也立即执行推理。这样可以保证P99延迟在1秒以内。根据Modal平台2025年发布的《Serverless Inference Best Practices》，采用200毫秒超时策略后，其用户平均吞吐提升3.2倍，而P95延迟仅增加15%。

在海外SaaS平台部署时，部分团队会使用NordVPN跨境访问来优化与AWS/GCP等海外API的通信延迟，实测可降低20-30%的跨洲请求耗时。

冷热分离：分层存储降低显存压力

冷热分离策略针对的是模型权重在显存中的驻留效率。并非所有模型参数在所有推理请求中都被访问——Attention层的权重使用频率远高于FFN层的部分参数。通过将“冷参数”卸载至CPU内存或NVMe SSD，仅保留“热参数”在显存中，可显著降低单实例的显存需求。

参数卸载的粒度控制

参数卸载的最小粒度应为Transformer层，而非整个模型。逐层卸载策略：根据最近1000次请求中各层的访问频率排序，将访问频率最低的20%的层卸载至CPU内存。当这些层被请求时，通过PCIe 4.0以约32GB/s的速度回传至显存。NVIDIA在2024年GTC大会上展示的数据显示，这种方案可使单卡部署的模型参数量增加1.5倍，而推理延迟仅增加8-12%。

混合部署的实例选择

对于流量波动较大的业务，Serverless + 常驻实例的混合模式更具成本效益。设置2-4个常驻实例处理基础流量，利用Spot实例处理突发流量。RunPod平台的数据显示，采用Spot实例后，推理成本可进一步降低60-70%，但需注意Spot实例的回收通知时间通常只有2分钟，需要设计好优雅退出和任务重调度逻辑。

推理框架选型：vLLM vs TGI vs TensorRT-LLM

推理框架的选择直接影响量化、缓存和请求合并策略的落地效果。目前工业界主流的三个框架各有侧重，需要根据业务场景匹配。

吞吐优先选vLLM

vLLM的PagedAttention机制在显存管理上具有显著优势。在LLaMA-3-8B的对比测试中，vLLM的吞吐量比TGI高40%，比Hugging Face的原生实现高15倍。对于需要高并发、低成本的B2C场景，vLLM是首选。但其对量化格式的支持稍弱，AWQ和GPT4的兼容性在0.6.0版本后才完善。

延迟敏感选TensorRT-LLM

NVIDIA的TensorRT-LLM在单请求延迟上表现最优。在A100上运行LLaMA-3-70B，TensorRT-LLM的首Token延迟比vLLM低25%，P99延迟低30%。但部署复杂度较高，需要手动优化算子图，且动态Batching的灵活性不如vLLM。适合对延迟要求苛刻的金融交易、实时翻译等场景。

生态兼容选TGI

Hugging Face的TGI在模型生态兼容性上最好。支持几乎所有Hugging Face仓库中的模型，且与Text Generation Inference API无缝对接。但其吞吐和延迟表现介于vLLM和TensorRT-LLM之间。对于需要快速验证多种模型的团队，TGI是低门槛选择。

成本监控：建立单位Token成本模型

单位Token成本是衡量部署效率的最终指标。计算公式为：每百万Token成本 = (GPU实例时租 × 推理时间) / (输出Token数 / 1,000,000)。建议在部署流水线中集成成本监控，实时追踪每个模型的成本变化。

成本拆解维度

将成本拆解为三个维度：计算成本（GPU时租）、存储成本（模型权重和缓存的存储费用）、网络成本（API网关和跨区域数据传输费用）。以阿里云PAI为例，部署Qwen-72B-INT4的每百万Token计算成本约为0.8元人民币，存储成本约0.02元，网络成本约0.05元。计算成本占比超过90%，是优化的主要方向。

成本告警与自动伸缩

设置成本告警阈值，当单位Token成本超过基准线20%时触发告警。结合Kubernetes的HPA（水平Pod自动伸缩），根据请求队列长度自动扩缩实例数量。AWS SageMaker的实测数据表明，采用自动伸缩后，非高峰期的实例数量可减少60%，整体成本下降35%。

FAQ

Q1：量化后的模型精度下降多少，如何评估是否可接受？

量化导致的精度下降通常在1-5个百分点之间，具体取决于量化位宽和模型大小。INT8量化精度损失通常小于1%，INT4损失在2-5%。建议使用与业务场景高度相关的评估集进行测试，而非通用基准。例如，代码生成任务用HumanEval评估，对话任务用MT-Bench评估。如果精度下降超过3%，建议改用混合精度或FP8方案。

Q2：缓存命中率低怎么办，如何提升？

缓存命中率低于20%时，建议从两个方面优化：一是降低语义相似度阈值，从0.95降至0.85，但需注意可能引入语义偏差；二是扩大缓存池容量，将TTL从1小时延长至24小时。同时检查请求的多样性——如果用户问题高度重复但命中率仍低，可能是嵌入向量模型质量不足，建议更换为text-embedding-3-large或bge-m3等更优模型。

Q3：请求合并后延迟增加多少，如何平衡？

请求合并通常会导致P99延迟增加20-50%，具体取决于合并窗口大小。将合并窗口设为200毫秒时，P99延迟增加约30%，但吞吐提升3-5倍。建议设置两个阈值：最大合并窗口（如200毫秒）和最小Batch Size（如4个请求），当任一条件满足时立即执行推理。对于延迟敏感的API，可将窗口缩短至50毫秒，牺牲部分吞吐换取低延迟。

参考资料

中国信通院 2025年《AI模型部署成本白皮书》
Hugging Face 2025年3月《LLM Inference Benchmark》
NVIDIA 2024年GTC大会《GPU Memory Optimization for Large Language Models》
阿里云PAI团队 2024年《Qwen模型混合精度部署技术报告》
字节跳动豆包团队 2024年《对话系统缓存优化实践》