日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

Windows10系統(tǒng)本地部署DeePseek大模型并用Web UI進行聊天

 金木魚23897029 2025-02-16 發(fā)布于江蘇

一、安裝ollama

打開ollama網(wǎng)站https:///,下載客戶端

Windows10系統(tǒng)本地部署DeePseek大模型并用Web UI進行聊天
Windows10系統(tǒng)本地部署DeePseek大模型并用Web UI進行聊天

打開下載好的OllamaSetup.exe進行安裝,一直默認安裝即可

Windows10系統(tǒng)本地部署DeePseek大模型并用Web UI進行聊天

二、修改ollama模型保存位置和啟動ollama

右鍵點擊【此電腦】→【屬性】→【高級系統(tǒng)設置】→【高級】→【環(huán)境變量】→【系統(tǒng)變量】→【新建】→【變量名】OLLAMA_MODELS

→【變量值】D:\Ollama\Models(盤符根據(jù)自己的需求修改,硬盤大小盡量在500G以上)

Windows10系統(tǒng)本地部署DeePseek大模型并用Web UI進行聊天
Windows10系統(tǒng)本地部署DeePseek大模型并用Web UI進行聊天

WIN+R啟動運行,進入CMD,輸入ollama help調(diào)取ollama的各項命令

Large language model runner

Usage:

ollama [flags]

ollama [command]

Available Commands:

serve Start ollama 開始ollama

create Create a model from a Modelfile 從一個Modelfile創(chuàng)建一個模型

show Show information for a model 顯示模型的信息

run Run a model 運行一個模型

stop Stop a running model 停止正在運行的模型

pull Pull a model from a registry 從注冊表中拉取一個模型

push Push a model to a registry 將一個模型推送到注冊表

list List models 列出模型

ps List running models 列出正在運行的模型

cp Copy a model 復制一個模型

rm Remove a model 刪除一個模型

help Help about any command 關于任何命令的幫助

Flags:

-h, --help help for ollama

-v, --version Show version information

Use 'ollama [command] --help' for more information about a command.

WIN+R啟動運行,進入CMD,輸入ollama serve啟動

Windows10系統(tǒng)本地部署DeePseek大模型并用Web UI進行聊天

三、安裝Page Assist - 本地 AI 模型的 Web UI

打開谷歌瀏覽器(Google Chrome)或GPT瀏覽器(官方網(wǎng)站:
https://www./)
,進入擴展程序chrome://extensions/,打開開發(fā)者模式。

本地安裝Page Assist插件(
https://github.com/n4ze3m/page-assist,
https://www./product-tool/85997.html),或者進入
Chrome應用商店安裝(注:需要魔法)

安裝完成后在菜單中頂置

Windows10系統(tǒng)本地部署DeePseek大模型并用Web UI進行聊天
Windows10系統(tǒng)本地部署DeePseek大模型并用Web UI進行聊天
Windows10系統(tǒng)本地部署DeePseek大模型并用Web UI進行聊天

四、配置Page Assist - 本地 AI 模型的 Web UI

打開Page Assist,選擇設置,進入后對一般設置、RAG模型、ollama設置進行修改,同時可以對管理知識進行添加。

Windows10系統(tǒng)本地部署DeePseek大模型并用Web UI進行聊天
Windows10系統(tǒng)本地部署DeePseek大模型并用Web UI進行聊天
Windows10系統(tǒng)本地部署DeePseek大模型并用Web UI進行聊天
Windows10系統(tǒng)本地部署DeePseek大模型并用Web UI進行聊天

五、安裝模型

打開ollama網(wǎng)站https:///,進入模型頁面,打開所需的模型頁面后通過Page Assist進行拉取下載。

Windows10系統(tǒng)本地部署DeePseek大模型并用Web UI進行聊天

也可以通過Page Assist設置界面中的管理模型中進行拉取模型。

Windows10系統(tǒng)本地部署DeePseek大模型并用Web UI進行聊天

除此之外,也可以通過ollma命令拉取模型。如ollama run
Huzderu/deepseek-r1-671b-2.51bit。

六、模型推薦

NAME ID SIZE

動態(tài)量化后的模型deepseek-r1

Huzderu/deepseek-r1-671b-1.73bit:latest 08d46664e5ce 168 GB

Huzderu/deepseek-r1-671b-2.22bit:latest aff1a536ee6b 196 GB

Huzderu/deepseek-r1-671b-2.51bit:latest bf80bdb59818 227 GB

SIGJNF/deepseek-r1-671b-1.58bit:latest a2138b47f53d 140 GB

DeepSeek-Janus-Pro模型

erwan2/DeepSeek-Janus-Pro-7B:latest e877a212a6a7 4.2 GB

越獄版deepseek-r1

huihui_ai/deepseek-r1-abliterated:7b 9e25a373f069 4.7 GB

huihui_ai/deepseek-r1-abliterated:8b f72bcec0a6da 4.9 GB

huihui_ai/deepseek-r1-abliterated:14b 6b2209ffd758 9.0 GB

huihui_ai/deepseek-r1-abliterated:32b fb53b3296912 19 GB

huihui_ai/deepseek-r1-abliterated:70b 50f8d0fe980f 42 GB

嵌入模型(必須)

nomic-embed-text:latest 0a109f422b47 274 MB

官方模型deepseek-r1

deepseek-r1:1.5b a42b25d8c10a 1.1 GB

deepseek-r1:7b 0a8c26691023 4.7 GB

deepseek-r1:8b 28f8fd6cdc67 4.9 GB

deepseek-r1:14b ea35dfe18182 9.0 GB

deepseek-r1:32b 38056bbcbb2d 19 GB

deepseek-r1:70b 0c1615a8ca32 42 GB

deepseek-r1:671b 739e1b229ad7 404 GB

七、配置

目前我使用的電腦配置如下,跑32B模型很輕松(20tok/s),跑
SIGJNF/deepseek-r1-671b-1.58bit:latest緩慢(不到1tok/s)。

CPU:13th Gen Intel(R) Core(TM) i5-13400 2.50 GHz

內(nèi)存:2根5代32G內(nèi)存條

保存模型的硬盤:2TB SSD

顯卡:navida 2080ti 22GB

主板:微星 PRO Z790-P DDR5代

八、其他

DeepSeek-R1-671B 的不同量化版本(1.73bit、2.22bit、2.51bit)的主要區(qū)別在于量化精度、模型性能(如推理速度、顯存占用)和模型效果(如準確率)之間的權衡。以下是具體分析:


1.量化位數(shù)與壓縮效率

  • 1.73bit:量化程度最高,模型體積最小,顯存占用最低,推理速度最快,但對模型精度損失最大。
  • 2.22bit:中等量化級別,在模型大小和性能之間取得平衡。
  • 2.51bit:量化程度最低,模型體積相對較大,但保留更多原始模型的精度。
  • 量化原理
    這些非整數(shù) bit 值表明采用了
    混合精度量化(如不同層或參數(shù)使用不同位數(shù)的量化),通過動態(tài)分配低比特(如1bit)和高比特(如3bit)來優(yōu)化整體效率。例如,某些關鍵參數(shù)可能用更高精度保留,次要參數(shù)用更低精度壓縮,最終計算出平均位數(shù)(如1.73bit)。

2.性能與效果的權衡

版本

模型體積

推理速度

顯存占用

模型效果(準確率)

1.73bit

最小

最快

最低

相對較低

2.22bit

中等

中等

中等

平衡

2.51bit

較大

較慢

較高

接近原始模型

  • 1.73bit:適合資源極度受限的場景(如邊緣設備),但對生成質(zhì)量要求不高的任務。
  • 2.22bit:適合大多數(shù)應用場景,在速度和效果間取得較好平衡。
  • 2.51bit:適合對生成質(zhì)量要求較高且資源充足的環(huán)境(如云端服務器)。

3.技術實現(xiàn)差異

  • 量化方法:可能采用類似 GPTQ(基于梯度的量化)或 AWQ(激活感知量化)的算法,通過動態(tài)調(diào)整量化策略減少精度損失。
  • 非對稱量化:對權重和激活值使用不同的量化策略,進一步優(yōu)化效率。
  • 硬件適配:低比特版本(如1.73bit)可能針對特定硬件(如GPU Tensor Core)優(yōu)化,以提高計算吞吐量。

4.如何選擇?

  • 優(yōu)先速度/顯存 → 選 1.73bit(如實時對話、低顯存GPU)。
  • 平衡速度與效果 → 選 2.22bit(通用場景)。
  • 優(yōu)先效果 → 選 2.51bit(復雜推理、高精度生成任務)。

總結(jié)

這些版本的差異本質(zhì)是**“壓縮率 vs 精度”的權衡**。量化通過犧牲少量模型性能來大幅降低資源需求,用戶需根據(jù)自身場景選擇最合適的版本。

5.虛擬內(nèi)存創(chuàng)建

  • 確認設置步驟
    右鍵點擊【此電腦】→【屬性】→【高級系統(tǒng)設置】→【高級】→【性能-設置】→【高級】→【虛擬內(nèi)存-更改】取消勾選【自動管理分頁文件大小】→ 選擇D盤(可以是其他盤) → 選擇【自定義大小】
    初始大小設為 1024000 MB(約1000GB),最大值設為 2048000 MB(約2000GB)→ 點擊【設置】→【確定】并重啟電腦。(舉例,起碼500G起步)
  • 關鍵點
    確保D盤剩余空間
    遠大于設置的虛擬內(nèi)存最大值(建議至少預留100GB以上)。重啟后檢查是否生效:任務管理器 → 性能 → 查看“提交內(nèi)存”上限是否增加。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多