日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

LLMs之MoE之DeepSeek-V3:DeepSeek-V3的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略

 處女座的程序猿 2024-12-27 發(fā)布于上海

LLMs之MoE之DeepSeek-V3:DeepSeek-V3的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略


DeepSeek-V3的簡介

DeepSeek-V3 是一個(gè)擁有?671B 個(gè)總參數(shù)每個(gè) token 激活 37B 參數(shù)的強(qiáng)大混合專家 (MoE) 語言模型。為了實(shí)現(xiàn)高效的推理和經(jīng)濟(jì)高效的訓(xùn)練,DeepSeek-V3 采用了在 DeepSeek-V2 中經(jīng)過充分驗(yàn)證多頭潛在注意力 (MLA) 和 DeepSeekMoE 架構(gòu)。 它在 14.8 萬億個(gè)多樣化且高質(zhì)量的 tokens 上進(jìn)行預(yù)訓(xùn)練,隨后進(jìn)行監(jiān)督微調(diào)強(qiáng)化學(xué)習(xí),以充分發(fā)揮其能力。 DeepSeek-V3 的訓(xùn)練過程非常穩(wěn)定,沒有出現(xiàn)任何不可恢復(fù)的損失峰值或回滾。其全部訓(xùn)練僅需 2.788M H800 GPU 小時(shí)。

總而言之,DeepSeek-V3 是一個(gè)高性能高效訓(xùn)練易于部署的開源大型語言模型,其在多個(gè)領(lǐng)域展現(xiàn)出強(qiáng)大的能力,并支持多種硬件平臺和推理框架。

GitHub地址GitHub - deepseek-ai/DeepSeek-V3

1、DeepSeek-V3 特點(diǎn)

>> 高效的 MoE 架構(gòu):使用多頭潛在注意力?(MLA) 和 DeepSeekMoE 架構(gòu),實(shí)現(xiàn)高效推理和經(jīng)濟(jì)高效的訓(xùn)練。

>> 創(chuàng)新的負(fù)載均衡策略:采用無輔助損失的負(fù)載均衡策略,最大限度地減少了由于鼓勵(lì)負(fù)載均衡而導(dǎo)致的性能下降。

>> 多標(biāo)記預(yù)測 (MTP) 目標(biāo):采用多標(biāo)記預(yù)測目標(biāo),提高模型性能,并可用于推測解碼以加速推理。

>> FP8 混合精度訓(xùn)練:首次驗(yàn)證了 FP8 訓(xùn)練在大規(guī)模模型上的可行性和有效性,顯著提高訓(xùn)練效率并降低訓(xùn)練成本。

>> 推理優(yōu)化:支持 FP8 和 BF16 推理,并與多個(gè)開源推理框架集成,例如 DeepSeek-Infer Demo、SGLang、LMDeploy 和 TensorRT-LLM 等,支持在 NVIDIA 和 AMD GPU 以及華為 Ascend NPU 上運(yùn)行。

>> 知識蒸餾:從 DeepSeek-R1 系列模型中蒸餾推理能力,提升 DeepSeek-V3 的推理性能,同時(shí)控制輸出風(fēng)格和長度。

>> 優(yōu)秀的性能:在各種基準(zhǔn)測試中超越其他開源模型,并與領(lǐng)先的閉源模型性能相當(dāng)。

2、模型性能

綜合評估表明,DeepSeek-V3 優(yōu)于其他開源模型,并實(shí)現(xiàn)了與領(lǐng)先的閉源模型相當(dāng)?shù)男阅?。盡管性能出色,但 DeepSeek-V3 僅需要 2.788M H800 GPU 小時(shí)即可完成完整訓(xùn)練。此外,它的訓(xùn)練過程非常穩(wěn)定。在整個(gè)訓(xùn)練過程中,我們沒有遇到任何無法恢復(fù)的損失峰值或執(zhí)行任何回滾。

Base Model

Standard Benchmarks
Benchmark (Metric)# ShotsDeepSeek-V2Qwen2.5 72BLLaMA3.1 405BDeepSeek-V3
Architecture-MoEDenseDenseMoE
# Activated Params-21B72B405B37B
# Total Params-236B72B405B671B
EnglishPile-test (BPB)-0.6060.6380.5420.548
BBH (EM)3-shot78.879.882.987.5
MMLU (Acc.)5-shot78.485.084.487.1
MMLU-Redux (Acc.)5-shot75.683.281.386.2
MMLU-Pro (Acc.)5-shot51.458.352.864.4
DROP (F1)3-shot80.480.686.089.0
ARC-Easy (Acc.)25-shot97.698.498.498.9
ARC-Challenge (Acc.)25-shot92.294.595.395.3
HellaSwag (Acc.)10-shot87.184.889.288.9
PIQA (Acc.)0-shot83.982.685.984.7
WinoGrande (Acc.)5-shot86.382.385.284.9
RACE-Middle (Acc.)5-shot73.168.174.267.1
RACE-High (Acc.)5-shot52.650.356.851.3
TriviaQA (EM)5-shot80.071.982.782.9
NaturalQuestions (EM)5-shot38.633.241.540.0
AGIEval (Acc.)0-shot57.575.860.679.6
CodeHumanEval (Pass@1)0-shot43.353.054.965.2
MBPP (Pass@1)3-shot65.072.668.475.4
LiveCodeBench-Base (Pass@1)3-shot11.612.915.519.4
CRUXEval-I (Acc.)2-shot52.559.158.567.3
CRUXEval-O (Acc.)2-shot49.859.959.969.8
MathGSM8K (EM)8-shot81.688.383.589.3
MATH (EM)4-shot43.454.449.061.6
MGSM (EM)8-shot63.676.269.979.8
CMath (EM)3-shot78.784.577.390.7
ChineseCLUEWSC (EM)5-shot82.082.583.082.7
C-Eval (Acc.)5-shot81.489.272.590.1
CMMLU (Acc.)5-shot84.089.573.788.8
CMRC (EM)1-shot77.475.876.076.3
C3 (Acc.)0-shot77.476.779.778.6
CCPM (Acc.)0-shot93.088.578.692.0
MultilingualMMMLU-non-English (Acc.)5-shot64.074.873.879.4

注意:最佳結(jié)果以粗體顯示。分差不超過 0.3 的分?jǐn)?shù)被視為處于同一水平。DeepSeek-V3 在大多數(shù)基準(zhǔn)測試中表現(xiàn)最佳,尤其是在數(shù)學(xué)和代碼任務(wù)方面。更多評估詳情,請查閱我們的論文。

Context Window上下文窗口

在“大海撈針”(NIAH)測試中的評估結(jié)果。DeepSeek-V3 在所有上下文窗口長度(最長為 128K)上的表現(xiàn)都很出色。

Chat Model

標(biāo)準(zhǔn)基準(zhǔn)(大于 670 億參數(shù)的模型)
Benchmark (Metric)DeepSeek V2-0506DeepSeek V2.5-0905Qwen2.5 72B-Inst.Llama3.1 405B-Inst.Claude-3.5-Sonnet-1022GPT-4o 0513DeepSeek V3
ArchitectureMoEMoEDenseDense--MoE
# Activated Params21B21B72B405B--37B
# Total Params236B236B72B405B--671B
EnglishMMLU (EM)78.280.685.388.688.387.288.5
MMLU-Redux (EM)77.980.385.686.288.988.089.1
MMLU-Pro (EM)58.566.271.673.378.072.675.9
DROP (3-shot F1)83.087.876.788.788.383.791.6
IF-Eval (Prompt Strict)57.780.684.186.086.584.386.1
GPQA-Diamond (Pass@1)35.341.349.051.165.049.959.1
SimpleQA (Correct)9.010.29.117.128.438.224.9
FRAMES (Acc.)66.965.469.870.072.580.573.3
LongBench v2 (Acc.)31.635.439.436.141.048.148.7
CodeHumanEval-Mul (Pass@1)69.377.477.377.281.780.582.6
LiveCodeBench (Pass@1-COT)18.829.231.128.436.333.440.5
LiveCodeBench (Pass@1)20.328.428.730.132.834.237.6
Codeforces (Percentile)17.535.624.825.320.323.651.6
SWE Verified (Resolved)-22.623.824.550.838.842.0
Aider-Edit (Acc.)60.371.665.463.984.272.979.7
Aider-Polyglot (Acc.)-18.27.65.845.316.049.6
MathAIME 2024 (Pass@1)4.616.723.323.316.09.339.2
MATH-500 (EM)56.374.780.073.878.374.690.2
CNMO 2024 (Pass@1)2.810.815.96.813.110.843.2
ChineseCLUEWSC (EM)89.990.491.484.785.487.990.9
C-Eval (EM)78.679.586.161.576.776.086.5
C-SimpleQA (Correct)48.554.148.450.451.359.364.8

注意:所有模型均在將輸出長度限制為 8K 的配置下進(jìn)行評估。對于包含少于 1000 個(gè)樣本的基準(zhǔn)測試,會使用不同的溫度設(shè)置多次進(jìn)行測試,以得出可靠的最終結(jié)果。DeepSeek-V3 是表現(xiàn)最佳的開源模型,并且在與前沿的閉源模型的對比中也展現(xiàn)出具有競爭力的性能。

Open Ended Generation Evaluation
ModelArena-HardAlpacaEval 2.0
DeepSeek-V2.5-090576.250.5
Qwen2.5-72B-Instruct81.249.1
LLaMA-3.1 405B69.340.5
GPT-4o-051380.451.1
Claude-Sonnet-3.5-102285.252.0
DeepSeek-V385.570.0

注意:英語開放式對話評估。對于 AlpacaEval 2.0,我們使用長度控制下的勝率作為指標(biāo)。

DeepSeek-V3的安裝和使用方法

DeepSeek-V3 提供了多種本地運(yùn)行方式,但HuggingFace's Transformers 尚未直接支持。

1、安裝

克隆倉庫并安裝依賴

git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3/inference
pip install -r requirements.txt

下載模型權(quán)重

從 HuggingFace 下載模型權(quán)重,并將其放入 /path/to/DeepSeek-V3 文件夾。

Model#Total Params#Activated ParamsContext LengthDownload
DeepSeek-V3-Base671B37B128K🤗 HuggingFace
DeepSeek-V3671B37B128K🤗 HuggingFace

模型權(quán)重轉(zhuǎn)換 (DeepSeek-Infer Demo 示例)

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

2、模型推理

DeepSeek-V3 可以使用以下硬件和開源社區(qū)軟件在本地部署:

>> DeepSeek-Infer 演示:我們?yōu)?FP8 和 BF16 推理提供了一個(gè)簡單、輕量級的演示。

>> SGLang:完全支持 BF16 和 FP8 推理模式下的 DeepSeek-V3 模型。

>> LMDeploy:支持本地和云部署的高效 FP8 和 BF16 推理。

>> TensorRT-LLM:目前支持 BF16 推理和 INT4/8 量化,即將支持 FP8。

>> AMD GPU:支持在 BF16 和 FP8 模式下通過 SGLang 在 AMD GPU 上運(yùn)行 DeepSeek-V3 模型。

>> 華為Ascend NPU:支持在華為Ascend設(shè)備上運(yùn)行DeepSeek-V3。

除了以下兩種,項(xiàng)目還推薦使用 SGLang、LMDeploy 和 TensorRT-LLM 等框架進(jìn)行推理,并提供了相應(yīng)的鏈接和說明。?SGLang 特別支持 AMD GPU。 華為 Ascend NPU 的支持也通過 MindIE 框架實(shí)現(xiàn)。 如果需要 BF16 權(quán)重,可以使用提供的轉(zhuǎn)換腳本進(jìn)行轉(zhuǎn)換。

運(yùn)行推理 (DeepSeek-Infer Demo 示例,交互式):

torchrun --nnodes 2 --nproc-per-node 8 generate.py --node-rank $RANK --master-addr $ADDR --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

運(yùn)行推理 (DeepSeek-Infer Demo 示例,批量):

torchrun --nnodes 2 --nproc-per-node 8 generate.py --node-rank $RANK --master-addr $ADDR --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

3、使用方法

T1、在DeepSeek的官方網(wǎng)站上與DeepSeek-V3聊天

地址:DeepSeek

T2、在 DeepSeek 平臺上提供與 OpenAI 兼容的 API

地址:DeepSeek

DeepSeek-V3的案例應(yīng)用

項(xiàng)目提供了 DeepSeek-V3 在各種基準(zhǔn)測試上的評估結(jié)果,涵蓋了自然語言理解、代碼生成、數(shù)學(xué)推理等多個(gè)方面,包括英文和中文基準(zhǔn)測試,以及多語言基準(zhǔn)測試。 DeepSeek-V3 在大多數(shù)基準(zhǔn)測試中都取得了最佳性能,尤其是在數(shù)學(xué)和代碼任務(wù)上。

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多