【原】1張4090，本地部署多模態(tài)大模型

ml_Py 2025-04-21 發(fā)布于河南

展開全文

大家好，我是 Ai 學習的老章

我對阿里通義千問十分喜愛，單說私有化部署，成本比 DeepSeek 低很多倍。私有化部署 DeepSeek- V3 或 R1，純硬件成本保底 150 萬（英偉達 H20 141GB 版），如果是國產(chǎn)算力，保底 200 萬了。但阿里的推理模型 QwQ:32B，只需要 4 張 4090 就行了（成本 10 幾個 w），表現(xiàn)非常優(yōu)異，很多場景可以替代 DeepSeek。具體參看 [[2025-03-22-大模型推理引擎vllm，啟動QwQ-32B]] 而多模態(tài)大模型 Qwen2.5-VL-32B 也只需要 4 張卡，7B 只需要 1 張！

Qwen2.5-VL 簡介

Qwen2.5-VL 是阿里通義千問團隊開源的旗艦視覺語言模型，有 3B、7B、32B、72B 等不同規(guī)模。該模型在視覺理解方面表現(xiàn)出色，能夠識別常見物體，分析圖像中的文本、圖表等元素。

Qwen2.5-VL 具備作為視覺 Agent 的能力，可以推理并動態(tài)使用工具，初步操作電腦和手機。在視頻處理上，Qwen2.5-VL 能夠理解超過 1 小時的長視頻，精準定位相關片段捕捉事件。模型還支持發(fā)票、表單等數(shù)據(jù)的結構化輸出。

Qwen2.5-VL 在多個性能測試中表現(xiàn)優(yōu)異，在文檔和圖表理解方面優(yōu)勢明顯，7B 模型在多項任務中超越了 GPT-4o-mini。模型的推出為開發(fā)者提供了強大的工具，能夠在多種應用場景中發(fā)揮重要作用。

本文我們主要介紹 Qwen2.5-VL-7B 本地化部署

下載模型

從 modelscope 下載，畢竟 huggingface 網(wǎng)不通。

模型文件：https:///models/Qwen/Qwen2.5-VL-7B-Instruct/files

安裝 modelscope：pip install modelscope

下載完整模型庫：modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct --local_dir /home/data-local/qwen25VL

將模型下載到指定的本地目錄 "/home/data-local/qwen25VL" 中。

一共 16 個 GB

推理引擎選擇 vLLM

安裝 vllm：pip install vllm

運行大模型：

CUDA_VISIBLE_DEVICES=4  vllm serve /ModelPath/Qwen2.5-VL-7B-Instruct --port 8000  --host 0.0.0.0 --dtype bfloat16  --limit-mm-per-prompt image=5,video=5 --max-model-len 16384

我的機器前 4 張卡被占用了，所以我是用第五張卡來啟動 Qwen2.5-VL-7B，指定 CUDA_VISIBLE_DEVICES=4（第一張卡編號是 0）