vllm的max-num-seqs参数怎么配置

doggie · 2026 年1 月 12 日 10:18

--max-num-seqs 控制 vLLM 在同一调度批次里最多同时处理的“未完成请求”数量（包括正在生成的和等待解码的）。

一句话：它就是“并发槽位数”，槽位少，KV-cache 就小，显存压力立刻降。

话题	回复	浏览量
vllm参数--gpu-memory-utilization 💻编程 vllm	3	2026 年1 月 12 日
vllm的tensor-parallel-size参数怎么配置 💻编程 vllm	5	2026 年1 月 12 日
Qwen2-VL-2B-Instruct Lora 微调 SwanLab可视化记录版（如何使用魔搭下载模型 🛠工具与编程	8	2025 年7 月 31 日
如何加速大模型的响应速度 💻编程大模型	4	2026 年1 月 12 日
如何安装部署deepseek-ocr且通过vllm server提供访问 🤖人工智能 ocr , deepseek	3	2026 年1 月 12 日