一文徹底讀懂：什么是GPU及其微架構(gòu)（干貨）

yi321yi 2024-12-27 發(fā)布于上海

展開全文

前幾篇文章，我們一直在學習：NVlink和NVSwitch技術(shù)、RDMA技術(shù)、IB網(wǎng)絡、RoCE網(wǎng)絡等，比較偏網(wǎng)絡方面的東西。很多人就覺得是不是學偏了，有沒有講到智算的重點上來？其實前面講的都是一些開胃菜，都是為我們學習GPU服務器做鋪墊打基礎(chǔ)的，接下來我們就好好來學習一下什么是GPU及GPU服務器？本章我們重點學習下什么是GPU，文章較長，請耐心細讀。

在學習GPU之前，我們借用“通俗解釋”的一個視頻簡單的來了解下GPU，確實非常通俗易懂。

看完之后，我們是不是對GPU就有了一個很直觀的了解了？

一、那什么是GPU

GPU即圖形處理單元（Graphics Processing Unit），是一種專用于處理圖形渲染任務的微處理器，最初被設(shè)計用于快速高效地渲染圖形、圖像和視頻內(nèi)容，是一種專用的高度并行化處理器。

GPU是在上世紀 80 年代作為圖形處理器被英偉達發(fā)明出來的，剛設(shè)計出來的功能是相對單一的，主要就是著眼于圖形圖像的渲染工作，通常用在我們電腦配置的“顯卡”上面。

GPU之所以在圖像處理領(lǐng)域獨占鰲頭，得益于其高度并行的架構(gòu)設(shè)計。GPU內(nèi)部集成了大量的小型處理單元（ALU，如下圖右側(cè)綠色方塊），能夠同時去處理圖像中的多個像素點，極大地加速了圖像處理的過程，同時也解放了CPU的工作壓力，提高了計算機的整體性能。由于強大的圖像和視頻渲染能力，得到了越來越多的計算機愛好者的關(guān)注和使用，特別是游戲愛好者。

如上圖所示，GPU 的并行架構(gòu)設(shè)計非常獨特，它是由成百上千個小型處理單元組成，通常稱為”ALU（算術(shù)邏輯單元）”、“流處理器SM（Stream Multiprocessor）”或“CUDA 核心”（不同廠商叫法可能都不太一樣），每個處理單元能夠獨立且并行的執(zhí)行不同指令，能夠同時執(zhí)行成千上萬個線程，這種高度并行的處理能力使得 GPU 能夠同時處理海量數(shù)據(jù)，因此可以在很短的時間內(nèi)處理完成千上萬的計算任務，所以非常適用于大規(guī)模的并行處理任務（如圖像像素計算、視頻渲染、數(shù)據(jù)流分析等）。雖然CPU 也有多核設(shè)計，但每個核心的任務通常是串行執(zhí)行的，即需要完成了上一個任務之后，才能開始下一個任務，因此對于處理大規(guī)模的計算任務時，就有點手忙腳亂，忙不過來，顯得非常緩慢。

隨著時間的推移，以及GPU硬件、軟件和CUDA生態(tài)的不斷發(fā)展，其可編程性和靈活性的提高，應用領(lǐng)域也在不斷擴展。如今，除了初期圖像處理和視頻渲染之外，GPU還被廣泛用于：游戲、圖形視頻編輯、科學模擬、物理仿真、密碼學運算、科學計算、機器學習等多個領(lǐng)域，特別是ChatGPT發(fā)布并爆發(fā)后，GPU被用作大模型訓練最好的神器，成為了人工智能（AI）首選硬件設(shè)備。

二、GPU卡內(nèi)部組成及微架構(gòu)

1、GPU卡的內(nèi)部組成

GPU卡通常由：圖形顯存控制器、顯存、壓縮單元、BIOS、GPU圖形和計算陣列、總線接口、電源管理單元、視頻管理單元、顯示界面、顯示接口等組成。

2、GPU的微架構(gòu)

GPU微架構(gòu)(MicroArchitecture)：就是指GPU內(nèi)部的組成結(jié)構(gòu)和運行原理，稱為微處理器體系結(jié)構(gòu)，是一種硬件電路設(shè)計構(gòu)造的方式，或一種在圖形函數(shù)和指令集條件下處理器中的執(zhí)行方法。某一特定指令集可以在不同微架構(gòu)中執(zhí)行，但在上運行過程中因設(shè)計目的不同而存在技術(shù)效果的不同。就像不同的建筑風格一樣，有著各自的特點和優(yōu)劣。

優(yōu)秀的微架構(gòu)對GPU性能和效能的提升發(fā)揮著至關(guān)重要的作用。

GPU微架構(gòu)包括：流處理器、渲染核、雙精度浮點運算單元、特殊運算單元、流式多處理器、紋理處理器、圖形處理器、流處理器陣列。

GPU架構(gòu)工作流程為：Vertex Shader(定點著色器)建立圖形骨架，再通過算法轉(zhuǎn)化進行光柵化計算，進而進行紋理映射，再由PixeShader(像素著色器)像素處理，最終由ROP(光柵化引擎)輸出。

不同微架構(gòu)決定了GPU的不同性能，英偉達、AMD等國際GPU廠商均加大投入研發(fā)新架構(gòu)作為提升GPU核心競爭力的重要抓手。

以英偉達的GPU架構(gòu)為例：

英偉達的GPU架構(gòu)演進從2010年到2024的14年間，進行了9次大的微架構(gòu)更新，在2024 年3月的GTC大會上，NVIDIA 發(fā)布了 Blackwell 架構(gòu)，從 Pascal 架構(gòu)到 Blackwell 架構(gòu)，架構(gòu)代號均以科學家人名來命名，分別如下圖所示。

其計算能力跟隨英偉達的GPU微架構(gòu)的發(fā)展，表現(xiàn)出不同的計算性能，具體的微架構(gòu)的運行原理和特點這里就不展開講了。

NVIDIA GPU 微架構(gòu)發(fā)展

NVIDIA GPU 微架構(gòu)發(fā)展及參數(shù)對比

三、GPU性能評估

GPU性能是衡量GPU運行、執(zhí)行命令高效的重要指標。GPU物理性能評估主要在于比較各硬件的物理參數(shù)，評估物理性能的參數(shù)主要包括：微架構(gòu)、制程、圖形處理器數(shù)量、流處理器數(shù)量、顯存容量/位寬/帶寬/頻率、核心頻率。

一般行業(yè)內(nèi)評估GPU性能的指標依次為：微架構(gòu)/制程>流處理器數(shù)量/核心頻率>顯存帶寬/容量>其他。

微架構(gòu)：目前英偉達的微架構(gòu)在行業(yè)內(nèi)做得最好的，目前也進行了9次大的微架構(gòu)更新，性能有了大大的改變，詳見第二節(jié)內(nèi)容。

制程：指GPU集成電路的密集度。在晶體管硬件數(shù)量一定的情況下，更精細的制程能夠減少功耗和發(fā)熱。現(xiàn)階段GPU主流最先進工藝制程為4nm。

核心頻率：代表GPU顯示核心處理圖像頻率大小/工作頻率，能夠反映顯示核心的性能。

圖形處理器單元數(shù)量：指GPU內(nèi)部圖形處理單元，涵蓋光柵單元(ROP)和紋理單元(TMU)等數(shù)量。

光柵單元(ROP)：進行光線、反射計算，負責游戲中高分辨率、高畫質(zhì)的效果生成。

紋理單元(TMU)：能夠?qū)ΧM制的圖形進行一系列翻轉(zhuǎn)、縮放變化，再將其紋理傳輸至3D平面模型中。

CUDA核數(shù)：作為GPU內(nèi)部的流處理器，是主要的計算單元，CUDA核數(shù)越多，GPU性能等級越高Tensor核數(shù):能夠進行張量核加速GEMM計算以及加速卷積和遞歸神經(jīng)網(wǎng)絡運行，Tensor核數(shù)越多，在人工智能、深度學習領(lǐng)域的性能越強。

顯存容量：顯存作為GPU核心部件，用以臨時存儲未處理數(shù)據(jù)。顯存容量的大小對于GPU存儲臨時數(shù)據(jù)的多少起決定性作用，在GPU核心性能能夠提供充足支撐前提下，越大的顯存容量能夠減少數(shù)據(jù)讀取次數(shù)，減少延遲出現(xiàn)。

顯存位寬：是GPU在單位時鐘周期內(nèi)傳送數(shù)據(jù)的最大位數(shù)，位數(shù)越大GPU的吞吐量越大。

顯存頻率：顯存數(shù)據(jù)傳輸?shù)乃俣燃达@存工作頻率，通常以MHz為顯存頻率計數(shù)單位。

顯存帶寬：顯存帶寬=顯存頻率X顯存位寬18，為顯存與顯卡芯片間數(shù)據(jù)傳輸量。

以英偉達GPU在不同微架構(gòu)下的參數(shù)做對比，性能由高到低排列如下，供大家參考：

四、GPU產(chǎn)業(yè)鏈

GPU產(chǎn)業(yè)鏈主要包括三大環(huán)節(jié)：設(shè)計、制造和封裝

GPU整體商業(yè)模式包括三種：IDM和、Fab+Fabless和Foundry

IDM模式：指將GPU產(chǎn)業(yè)鏈的三個環(huán)節(jié)整體化，充分結(jié)合自主研發(fā)和外部代工，集設(shè)計、制造、封裝為一體，公司垂直整合GPU整體產(chǎn)業(yè)鏈。
Fab+Fabless：充分發(fā)揮各企業(yè)比較優(yōu)勢，僅負責芯片電路設(shè)計，將產(chǎn)業(yè)鏈其他環(huán)節(jié)外包，分散了GPU研發(fā)和生產(chǎn)的風險。
Foundry：公司僅負責芯片制造環(huán)節(jié)，不負責上游設(shè)計和下游封裝，可以同時為多家上游企業(yè)服務。

如果對算力不是很熟悉的話，建議可先看看以下的文章，先對算力及相關(guān)的技術(shù)有個基本的了解，歡迎點贊收藏。

一文搞懂：什么是RoCE網(wǎng)絡（干貨）

一文徹底搞懂：什么是InfiniBand（IB）網(wǎng)絡【干貨】

一文徹底搞懂：什么是RDMA技術(shù)及其三個協(xié)議

一文讀懂：NVlink和NVSwitch技術(shù)及發(fā)展

一文讀懂：GPU的通信帶寬-運力

一文讓你徹底了解算力到底是如何計算出來的-算力的計算方法（CPU和GPU）

一文讀懂什么是智算和算力，讓你看懂算力的規(guī)模！

AI DC的到來，你還不知道什么是數(shù)據(jù)中心？30頁PPT讓你快速了解數(shù)據(jù)中心