vllm的tensor-parallel-size参数怎么配置

doggie · 2026 年1 月 12 日 10:16

--tensor-parallel-size 2 只是把模型参数和计算图切成两半，让两张卡各存 1/2 的权重；
但 vLLM 在每张卡上仍然要给自己这份权重和配套的“KV-cache + 中间激活”留足同比例的显存。

换句话说：

所以 tensor-parallel 并不能让“门槛减半”，只能让模型装得下，但每张卡仍要各自过内存门槛。

话题	回复	浏览量
vllm参数--gpu-memory-utilization 💻编程 vllm	7	2026 年1 月 12 日
vllm的max-num-seqs参数怎么配置 💻编程 vllm	13	2026 年1 月 12 日
Qwen2-VL-2B-Instruct Lora 微调 SwanLab可视化记录版（如何使用魔搭下载模型 🛠工具与编程	10	2025 年7 月 31 日
gitlab runner内存相关配置shm_size、memory、memory_swap 💻编程 gitlab	4	2026 年1 月 30 日
paddleocr-vl-1.5 docker部署及参数调整 💻编程 ocr , docker , paddle	38	2026 年2 月 25 日