vllm的tensor-parallel-size参数怎么配置

--tensor-parallel-size 2 只是把模型参数和计算图切成两半,让两张卡各存 1/2 的权重
vLLM 在每张卡上仍然要给自己这份权重和配套的“KV-cache + 中间激活”留足同比例的显存

换句话说:

  • 每张卡都要满足 --gpu-memory-utilization 的门槛;

  • 门槛 = 利用率 × 单卡总显存(44 GB×0.25 ≈ 11 GB),不是“两张卡加起来”

  • 所以只要有一张卡空闲 < 11 GB,就会报 “Free memory … < desired”

所以 tensor-parallel 并不能让“门槛减半”,只能让模型装得下,但每张卡仍要各自过内存门槛