日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

DeepSeek-R1:架構(gòu)和訓(xùn)練詳解| DeepSeek 系列

 數(shù)據(jù)治理精英館 2025-01-29 發(fā)布于浙江


蛇年大吉

紅梅傲雪報春來

喜氣洋洋迎新歲

在過去的幾天里,人們對新發(fā)布的開放權(quán)重模型 DeepSeek-R1 [1] 著迷不已,盡管訓(xùn)練成本低得多,但其性能與 GPT-o1 相當。

DeepSeek-R1 在復(fù)雜的推理任務(wù)中表現(xiàn)出色,包括數(shù)學、編碼和科學推理。該模型充分利用測試時間計算來執(zhí)行詳細的思維鏈 (CoT) 推理。當通過聊天界面進行測試時,它首先會經(jīng)歷一個“thinking out loud”步驟,然后提供最終的、結(jié)構(gòu)良好的答案。

DeepSeek-R1 的主要目標是探索使用強化學習作為唯一的后訓(xùn)練技術(shù)可以達到何種程度。典型的 LLM 訓(xùn)練流程包括預(yù)訓(xùn)練階段,模型在此階段學習從大量未標記數(shù)據(jù)中預(yù)測下一個標記,然后是后訓(xùn)練階段。后訓(xùn)練階段通常包括監(jiān)督微調(diào) (SFT),并通過帶人工反饋的強化學習 (RLHF) 進一步增強。DeepSeek-R1 旨在最大限度地減少甚至消除對 SFT 的依賴,原因如下:

SFT 需要高質(zhì)量的人工注釋數(shù)據(jù)。注釋過程通常很慢、成本高,并且可能因注釋者的偏好而引入潛在偏差。

復(fù)雜的推理任務(wù)可能超出了普通人類的理解能力。純強化學習方法使模型能夠開發(fā)出超越傳統(tǒng)人類思維界限的復(fù)雜推理行為。

有效利用“測試時間計算”是另一個關(guān)鍵優(yōu)勢。使用 SFT,注釋者必須提供完整的思路,詳細說明從推理過程到最終答案的每個步驟。這種方法在推理長度方面難以擴展。相比之下,RL 不依賴于顯式標簽,允許模型“根據(jù)需要思考”,從而最大限度地發(fā)揮“測試時間擴展”定律的優(yōu)勢。

但 DeepSeek-R1 是否完全依賴 RL?答案既是肯定的,也是否定的。作者發(fā)布了兩個不同的模型:DeepSeek-R1-Zero 和 DeepSeek-R1。前者僅在后訓(xùn)練過程中使用了 RL。雖然它在某些推理基準上表現(xiàn)出與 GPT-o1 相當?shù)男阅埽嬖诳勺x性差和偶爾出現(xiàn)語言混雜的問題。為了解決這些問題,引入了第二個模型 DeepSeek-R1。它經(jīng)歷了一個四階段的后訓(xùn)練過程,并結(jié)合了 SFT 來解決這些挑戰(zhàn)并進一步提高性能。

一、DeepSeek-R1 架構(gòu)

R1-Zero 和 R1 均從 DeepSeek-V3-Base 檢查點繼續(xù)進行后期訓(xùn)練。DeepSeek-V3 [2] 是 DeepSeek AI 開發(fā)的開放權(quán)重混合專家 (MoE) 模型,具有多項關(guān)鍵創(chuàng)新,包括 MoE 結(jié)構(gòu)、多頭潛在注意力 (MLA) 和多令牌預(yù)測 (MTP)。

二、 DeepSeek-R1-Zero — 無 SFT 模型

1. 強化學習算法

DeepSeek AI 利用了組相對策略優(yōu)化 (GRPO),這是 2024 年 DeepSeekMath 論文中提出的強化學習算法。GRPO 基于近端策略優(yōu)化 (PPO) 框架構(gòu)建,旨在增強語言模型中的數(shù)學推理能力,同時減少內(nèi)存消耗。

DeepSeekMath 論文的詳細信息:https:///pdf/2402.03300

圖 1. GRPO 目標函數(shù)

2. 獎勵建模:

獎勵的計算方式在很大程度上決定了強化學習訓(xùn)練的成功。DeepSeek-R1-Zero 完全依賴于基于規(guī)則的獎勵系統(tǒng),該系統(tǒng)主要由兩種類型組成:

準確度獎勵:準確度獎勵模型評估響應(yīng)是否正確。

格式獎勵:獎勵強制模型將其思考過程置于“<think>”和“</think>”標簽之間。

請注意,在此設(shè)置中,沒有使用神經(jīng)獎勵模型,這意味著沒有經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)來近似獎勵函數(shù)。作者認為,神經(jīng)獎勵模型在大規(guī)模強化學習過程中容易受到獎勵黑客攻擊。此外,重新訓(xùn)練獎勵模型需要額外的資源,并使整個訓(xùn)練流程變得復(fù)雜。

3.訓(xùn)練模板

對于對話式的 LLM,通常需要問答模板。令人驚訝的是,DeepSeek-R1-Zero 的提示模板非常簡單。

表 1. DeepSeek-R1-Zero 的模板。訓(xùn)練期間,提示將被替換為具體的推理問題。

4.性能與推理:

在訓(xùn)練過程中,DeepSeek-R1-Zero 開發(fā)出了復(fù)雜的推理行為,例如反思(模型重新審視并重新評估其先前的步驟)以及探索解決問題的替代方法。

他們還觀察到 DeepSeek-R1-Zero 在訓(xùn)練過程中的“自我進化”過程,平均響應(yīng)長度穩(wěn)步增加。換句話說,R1-Zero 學會了花更多時間思考,有效地反映了測試時間計算的縮放規(guī)律。

圖 3. DeepSeek-R1-Zero 在強化學習過程中對訓(xùn)練集的平均響應(yīng)長度

盡管僅使用強化學習(RL)進行訓(xùn)練,DeepSeek-R1-Zero 仍具有令人印象深刻的表現(xiàn)。

表 2. DeepSeek-R1-Zero 與 OpenAI o1 模型在推理相關(guān)基準上的比較

圖 2. DeepSeek-R1-Zero 在訓(xùn)練過程中的 AIME 準確率

不過,正如前面提到的,R1-Zero 也存在一些局限性。它經(jīng)常面臨可讀性差、語言混雜等問題。DeepSeek-R1 的推出旨在解決這些挑戰(zhàn)。

三、DeepSeek-R1

DeepSeek-R1 旨在通過結(jié)合多階段后訓(xùn)練過程來改進 Zero。

與 R1-Zero 不同,R1 從監(jiān)督微調(diào) (SFT) 開始,以克服強化學習的冷啟動階段。首先通過使用少量演示直接提示 R1-Zero 回答來生成標簽。然后通過人工注釋者進行后處理來完善這些標簽。在此步驟中收集了數(shù)千個冷啟動樣本以進行微調(diào)。

在對冷啟動數(shù)據(jù)進行 DeepSeek-V3-Base 微調(diào)后,作者采用了與 R1-Zero 相同的大規(guī)模強化學習訓(xùn)練流程。此階段側(cè)重于增強模型的推理能力。為了解決語言混合問題,他們在強化學習訓(xùn)練期間引入了語言一致性獎勵,該獎勵以思路鏈 (CoT) 中目標語言單詞的比例計算。

第三個訓(xùn)練階段是另一個使用標記數(shù)據(jù)的監(jiān)督微調(diào) (SFT) 階段。與主要側(cè)重于推理的初始冷啟動數(shù)據(jù)不同,此階段結(jié)合了來自其他領(lǐng)域的數(shù)據(jù),以增強模型在寫作、角色扮演和其他通用任務(wù)中的能力。目標響應(yīng)(ground-truth)是通過從一組生成的響應(yīng)中進行拒絕采樣生成的,其分數(shù)由前面提到的基于規(guī)則的獎勵系統(tǒng)或生成獎勵模型(模型作為判斷)確定。

最后,應(yīng)用第二個 RL 階段,即適用于所有場景的強化學習,以提高模型的有用性和無害性,同時完善其推理能力。此階段還整合了來自不同管道的數(shù)據(jù),將獎勵信號與不同的提示分布相結(jié)合。

四、基準測試

DeepSeek-R1 在基準測試中取得了令人印象深刻的成績,其性能與 GPT-o1-1217 相當,特別是在數(shù)學和編碼等復(fù)雜的推理任務(wù)中。

表 3 DeepSeek-R1 與其他代表模型對比

DeepSeek-R1 震驚了世界,不僅因為它在低得多的訓(xùn)練成本下取得了令人印象深刻的表現(xiàn),還因為它推動了 LLM 后訓(xùn)練中僅使用 RL 方法的使用。這一突破肯定會在不久的將來推動整個研究界向前發(fā)展,并引發(fā)人們對全球大型實驗室在訓(xùn)練 LLM 上花費大量預(yù)算的合理性的質(zhì)疑。

參考

[1]DeepSeek-R1 論文:https:///pdf/2501.12948

[2]DeepSeek-V3論文:

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多