如果把 --gpu-memory-utilization 0.1 设到极限 0.1,vLLM 只会在这张卡上预留 **10 ×总显存** 给 KV-cache 和中间张量,剩余 90 空着。结果:
-
能启动——门槛最低,几乎不会因为“空闲不足”报错。
-
KV-cache 池变得非常小,同时可放的 seq_len × batch_size 大幅缩水;高并发或大长度输入会立刻触发 out-of-memory in KV cache 或频繁 evict,吞吐骤降。
-
因为缓存不够用,vLLM 会 频繁把旧序列踢出缓存再重新计算,导致 token/s 反而更低,甚至请求直接失败。
-
对显存带宽的利用率也低,GPU 大部分时间空等,整体性价比差。
所以 0.1 只适合做“能不能跑起来”的冒烟测试;生产或正常推理请从 0.6 往下调,一般不低于 0.4,再低就弊大于利了。