始徒Beginner
如何加速大模型的响应速度
🛠工具与编程
大模型
doggie
2026 年1 月 12 日 07:44
1
使用vllm
https://www.youtube.com/watch?v=McLdlg5Gc9s
通过量化、剪枝、蒸馏、二值化简化模型
https://www.youtube.com/watch?v=jW2cmZ-9hLk
量化:把浮点数简化成整数,比如123.456789简化成123.5
相关话题
话题
回复
浏览量
活动
Qwen2-VL-2B-Instruct Lora 微调 SwanLab可视化记录版(如何使用魔搭下载模型
🛠工具与编程
0
13
2025 年7 月 31 日
大模型基础知识快速补齐
🛠工具与编程
0
18
2025 年12 月 17 日
如何下载大模型并用llamafactory启动
🥼实践与临床
0
16
2026 年2 月 26 日
如何将qwen3小模型和视觉模型拼接,进而为qwen3小模型提供视觉能力
🛠工具与编程
0
49
2025 年7 月 31 日
从零开始自己训练一个最小的大模型
🛠工具与编程
0
68
2025 年12 月 17 日