--tensor-parallel-size 2 只是把模型参数和计算图切成两半,让两张卡各存 1/2 的权重;
但 vLLM 在每张卡上仍然要给自己这份权重和配套的“KV-cache + 中间激活”留足同比例的显存。
换句话说:
-
每张卡都要满足
--gpu-memory-utilization的门槛; -
门槛 =
利用率 × 单卡总显存(44 GB×0.25 ≈ 11 GB),不是“两张卡加起来”; -
所以只要有一张卡空闲 < 11 GB,就会报 “Free memory … < desired”。
所以 tensor-parallel 并不能让“门槛减半”,只能让模型装得下,但每张卡仍要各自过内存门槛。