日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

阿里 Qwen3 令人失望?

 ml_Py 2025-04-29 發(fā)布于河南

大家好,我是 Ai 學習的老章

極簡結論:Qwen3 是可以本地部署的最強開源寫代碼大模型

阿里Qwen3 全部情報匯總,本地部署指南,性能全面超越 DeepSeek R1

我只有 4 張 4090 顯卡,本文嘗試本地部署 Qwen3:32B,搭配 OpenwebUI 聊天 Bot,簡單看看其推理速度

  • 本地部署
  • Mac 部署
  • 下載模型
  • 模型部署
  • openwebui 聊天助手
  • 測試

本地部署可選方案

ollama

模型頁:https:///library/qwen3

運行:ollama run qwen3

其他尺寸,在后面加參數(shù)即可,比如:ollama run qwen3:32b

可以在提示詞后輸入 /no_think 來切換 Ollama 中的無思考模式。

備注??:ollama 運行的是量化版,效果有折扣

vLLM

需要升級到 v0.8.4 以上,最好 v0.8.5

地址:https://github.com/vllm-project/vllm/issues/17327

vllm serve Qwen/Qwen3-235B-A22B-FP8 --enable-reasoning --reasoning-parser deepseek_r1 --tensor-parallel-size 4

SGLang

需要升級到SGLang 0.4.6.post1

地址:https://github.com/sgl-project/sglang

pip3 install "sglang[all]>=0.4.6.post1"

python3 -m sglang.launch_server --model Qwen/Qwen3-235B-A22B --tp 8 --reasoning-parser qwen3

python3 -m sglang.launch_server --model Qwen/Qwen3-235B-A22B-FP8 --tp 4 --reasoning-parser qwen3

CPU 部署

llama.cpp

可以用 llama.cpp 運行起 Qwen3 量化版本、動態(tài)量化版本!

地址:https:///collections/unsloth/qwen3-680edabfb790c8c34a242f95

KTransformer

Xeon 鉑金 4 代 + 4090 運行 Qwen3-235B-A22B 單個請求可以達到 13.8 token/s, 4 個請求并行可以達到總計 24.4 token/s

地址:http://github.com/kvcache-ai/ktransformers/blob/main/doc/en/AMX.md

Mac 部署

Mac 上也可以跑 Qwen3 了

地址:https://github.com/ml-explore/mlx-lm/commit/5c2c18d6a3ea5f62c5b6ae7dda5cd9db9e8dab16

pip install -U mlx-lm
# or
conda install -c conda-forge mlx-lm

支持設備

  • iPhone:  0.6B, 4B
  • Macbook: 8B, 30B, 3B/30B MoE
  • M2, M3 Ultra: 22B/235B MoE

有網(wǎng)友測試 Qwen3-235B-A22B-4bit 量化版本在 Apple Mac Studio M2 Ultra 能跑到 28 toks/sec,大概占用 132GB 內(nèi)存

下載模型

模型文件:https:///models/Qwen/Qwen3-32B/files

在下載前,先通過如下命令安裝 ModelScope

pip install modelscope

命令行下載完整模型庫

modelscope download --model Qwen/Qwen3-32B

下載單個文件到指定本地文件夾(以下載 README.md 到當前路徑下“dir”目錄為例)

modelscope download --model Qwen/Qwen3-32B README.md --local_dir ./dir

模型大小約 64GB

模型部署

用 vllm 拉起大模型,我有 4 張 4090 顯卡,tensor-parallel-size 設置為 4

pip install --upgrade vllm

vllm serve . --served-model-name Qwen3:32B --port 3001 --enble-reasoning --reasoning-parse deepseek_r1 --tensor-parallel-size 4

卡沒被占滿,還有空余拉起 reranker 模型

openwebui 聊天助手

OpenWebUI 旨在為 AI 和 LLMs 構建最佳用戶界面,為那些互聯(lián)網(wǎng)訪問受限的人提供利用 AI 技術的機會。OpenWebUI 通過 Web 界面本地運行 LLMs,使 AI 和 LLMs 更安全、更私密。

安裝 openwebui 是我見過所有 chatbot 中最簡單的了

# 安裝
pip install open-webui

#
 啟動
open-webui serve

瀏覽器打開 http://locahost:8080

如果是服務器部署,把 localhost 改為服務器 ip

正常注冊登陸

    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多