vllm的max-num-seqs参数怎么配置

--max-num-seqs 控制 vLLM 在同一调度批次里最多同时处理的“未完成请求”数量(包括正在生成的和等待解码的)。

  • 数值越大 → 并行度越高、吞吐越好,但 KV-cache 占用的显存峰值 也越大;

  • 数值越小 → 显存峰值降低,可在你这种“空闲显存只剩几百 MB”的场合先跑起来;

  • 默认值 256,你单卡只剩 100 MB 时就会 OOM,所以把它 从 256 砍到 8–16 就能避开预热阶段的显存爆炸。

一句话:它就是“并发槽位数”,槽位少,KV-cache 就小,显存压力立刻降。