日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

一文徹底讀懂:什么是GPU及其微架構(gòu)(干貨)

 yi321yi 2024-12-27 發(fā)布于上海
前幾篇文章,我們一直在學習:NVlink和NVSwitch技術(shù)RDMA技術(shù)、IB網(wǎng)絡、RoCE網(wǎng)絡等,比較偏網(wǎng)絡方面的東西。很多人就覺得是不是學偏了,有沒有講到智算的重點上來?其實前面講的都是一些開胃菜,都是為我們學習GPU服務器做鋪墊打基礎(chǔ)的,接下來我們就好好來學習一下什么是GPU及GPU服務器?本章我們重點學習下什么是GPU,文章較長,請耐心細讀。
在學習GPU之前,我們借用“通俗解釋”的一個視頻簡單的來了解下GPU,確實非常通俗易懂。
看完之后,我們是不是對GPU就有了一個很直觀的了解了?


一、那什么是GPU
GPU即圖形處理單元(Graphics Processing Unit),是一種專用于處理圖形渲染任務的微處理器,最初被設(shè)計用于快速高效地渲染圖形、圖像和視頻內(nèi)容,是一種專用的高度并行化處理器。
GPU是在上世紀 80 年代作為圖形處理器被英偉達發(fā)明出來的,剛設(shè)計出來的功能是相對單一的,主要就是著眼于圖形圖像的渲染工作,通常用在我們電腦配置的“顯卡”上面。
GPU之所以在圖像處理領(lǐng)域獨占鰲頭,得益于其高度并行的架構(gòu)設(shè)計。GPU內(nèi)部集成了大量的小型處理單元(ALU,如下圖右側(cè)綠色方塊),能夠同時去處理圖像中的多個像素點,極大地加速了圖像處理的過程,同時也解放了CPU的工作壓力,提高了計算機的整體性能。由于強大的圖像和視頻渲染能力,得到了越來越多的計算機愛好者的關(guān)注和使用,特別是游戲愛好者。
圖片
如上圖所示,GPU 的并行架構(gòu)設(shè)計非常獨特,它是由成百上千個小型處理單元組成,通常稱為”ALU(算術(shù)邏輯單元)”、“流處理器SM(Stream Multiprocessor)”或“CUDA 核心”(不同廠商叫法可能都不太一樣),每個處理單元能夠獨立且并行的執(zhí)行不同指令,能夠同時執(zhí)行成千上萬個線程,這種高度并行的處理能力使得 GPU 能夠同時處理海量數(shù)據(jù),因此可以在很短的時間內(nèi)處理完成千上萬的計算任務,所以非常適用于大規(guī)模的并行處理任務(如圖像像素計算、視頻渲染、數(shù)據(jù)流分析等)。雖然CPU 也有多核設(shè)計,但每個核心的任務通常是串行執(zhí)行的,即需要完成了上一個任務之后,才能開始下一個任務,因此對于處理大規(guī)模的計算任務時,就有點手忙腳亂,忙不過來,顯得非常緩慢。
圖片
隨著時間的推移,以及GPU硬件、軟件和CUDA生態(tài)的不斷發(fā)展,其可編程性和靈活性的提高,應用領(lǐng)域也在不斷擴展。如今,除了初期圖像處理和視頻渲染之外,GPU還被廣泛用于:游戲、圖形視頻編輯、科學模擬、物理仿真、密碼學運算、科學計算、機器學習等多個領(lǐng)域,特別是ChatGPT發(fā)布并爆發(fā)后,GPU被用作大模型訓練最好的神器,成為了人工智能(AI)首選硬件設(shè)備。

二、GPU卡內(nèi)部組成及微架構(gòu)
1、GPU卡的內(nèi)部組成
圖片
GPU卡通常由:圖形顯存控制器、顯存、壓縮單元、BIOS、GPU圖形和計算陣列、總線接口、電源管理單元、視頻管理單元、顯示界面、顯示接口等組成。
2、GPU的微架構(gòu)
GPU微架構(gòu)(MicroArchitecture)就是指GPU內(nèi)部的組成結(jié)構(gòu)和運行原理,稱為微處理器體系結(jié)構(gòu),是一種硬件電路設(shè)計構(gòu)造的方式,或一種在圖形函數(shù)和指令集條件下處理器中的執(zhí)行方法。某一特定指令集可以在不同微架構(gòu)中執(zhí)行,但在上運行過程中因設(shè)計目的不同而存在技術(shù)效果的不同。就像不同的建筑風格一樣,有著各自的特點和優(yōu)劣。

圖片優(yōu)秀的微架構(gòu)對GPU性能和效能的提升發(fā)揮著至關(guān)重要的作用。

GPU微架構(gòu)包括:流處理器、渲染核、雙精度浮點運算單元、特殊運算單元、流式多處理器、紋理處理器、圖形處理器、流處理器陣列。

圖片

GPU架構(gòu)工作流程為:Vertex Shader(定點著色器)建立圖形骨架,再通過算法轉(zhuǎn)化進行光化計算,進而進行紋理映射,再由PixeShader(像素著色器)像素處理,最終由ROP(光柵化引擎)輸出。

圖片

不同微架構(gòu)決定了GPU的不同性能,英偉達、AMD等國際GPU廠商均加大投入研發(fā)新架構(gòu)作為提升GPU核心競爭力的重要抓手。

以英偉達的GPU架構(gòu)為例:

英偉達的GPU架構(gòu)演進從2010年到2024的14年間,進行了9次大的微架構(gòu)更新,在2024 年3月的GTC大會上,NVIDIA 發(fā)布了 Blackwell 架構(gòu),從 Pascal 架構(gòu)到 Blackwell 架構(gòu),架構(gòu)代號均以科學家人名來命名,分別如下圖所示。

其計算能力跟隨英偉達的GPU微架構(gòu)的發(fā)展,表現(xiàn)出不同的計算性能,具體的微架構(gòu)的運行原理和特點這里就不展開講了。

圖片
NVIDIA GPU 微架構(gòu)發(fā)展
圖片
NVIDIA GPU 微架構(gòu)發(fā)展及參數(shù)對比

三、GPU性能評估

GPU性能是衡量GPU運行、執(zhí)行命令高效的重要指標。GPU物理性能評估主要在于比較各硬件的物理參數(shù),評估物理性能的參數(shù)主要包括:微架構(gòu)、制程、圖形處理器數(shù)量、流處理器數(shù)量、顯存容量/位寬/帶寬/頻率、核心頻率。

一般行業(yè)內(nèi)評估GPU性能的指標依次為:微架構(gòu)/制程>流處理器數(shù)量/核心頻率>顯存帶寬/容量>其他。

圖片

微架構(gòu):目前英偉達的微架構(gòu)在行業(yè)內(nèi)做得最好的,目前也進行了9次大的微架構(gòu)更新,性能有了大大的改變,詳見第二節(jié)內(nèi)容。

制程:指GPU集成電路的密集度。在晶體管硬件數(shù)量一定的情況下,更精細的制程能夠減少功耗和發(fā)熱。現(xiàn)階段GPU主流最先進工藝制程為4nm。

核心頻率:代表GPU顯示核心處理圖像頻率大小/工作頻率,能夠反映顯示核心的性能。

圖片

圖形處理器單元數(shù)量:指GPU內(nèi)部圖形處理單元,涵蓋光柵單元(ROP)和紋理單元(TMU)等數(shù)量。

光柵單元(ROP):進行光線、反射計算,負責游戲中高分辨率、高畫質(zhì)的效果生成。

紋理單元(TMU):能夠?qū)ΧM制的圖形進行一系列翻轉(zhuǎn)、縮放變化,再將其紋理傳輸至3D平面模型中。

CUDA核數(shù):作為GPU內(nèi)部的流處理器,是主要的計算單元,CUDA核數(shù)越多,GPU性能等級越高Tensor核數(shù):能夠進行張量核加速GEMM計算以及加速卷積和遞歸神經(jīng)網(wǎng)絡運行,Tensor核數(shù)越多,在人工智能、深度學習領(lǐng)域的性能越強。

圖片

顯存容量:顯存作為GPU核心部件,用以臨時存儲未處理數(shù)據(jù)。顯存容量的大小對于GPU存儲臨時數(shù)據(jù)的多少起決定性作用,在GPU核心性能能夠提供充足支撐前提下,越大的顯存容量能夠減少數(shù)據(jù)讀取次數(shù),減少延遲出現(xiàn)。

顯存位寬:是GPU在單位時鐘周期內(nèi)傳送數(shù)據(jù)的最大位數(shù),位數(shù)越大GPU的吞吐量越大。

顯存頻率:顯存數(shù)據(jù)傳輸?shù)乃俣燃达@存工作頻率,通常以MHz為顯存頻率計數(shù)單位。

顯存帶寬:顯存帶寬=顯存頻率X顯存位寬18,為顯存與顯卡芯片間數(shù)據(jù)傳輸量。

圖片
英偉達GPU在不同微架構(gòu)下的參數(shù)做對比,性能由高到低排列如下,供大家參考:
圖片
圖片
圖片


四、GPU產(chǎn)業(yè)鏈

GPU產(chǎn)業(yè)鏈主要包括三大環(huán)節(jié):設(shè)計、制造和封裝

圖片

GPU整體商業(yè)模式包括三種:IDM和、Fab+Fabless和Foundry

  • IDM模式:指將GPU產(chǎn)業(yè)鏈的三個環(huán)節(jié)整體化,充分結(jié)合自主研發(fā)和外部代工,集設(shè)計、制造、封裝為一體,公司垂直整合GPU整體產(chǎn)業(yè)鏈。

  • Fab+Fabless:充分發(fā)揮各企業(yè)比較優(yōu)勢,僅負責芯片電路設(shè)計,將產(chǎn)業(yè)鏈其他環(huán)節(jié)外包,分散了GPU研發(fā)和生產(chǎn)的風險。

  • Foundry:公司僅負責芯片制造環(huán)節(jié),不負責上游設(shè)計和下游封裝,可以同時為多家上游企業(yè)服務。

    圖片

如果對算力不是很熟悉的話,建議可先看看以下的文章,先對算力及相關(guān)的技術(shù)有個基本的了解,歡迎點贊收藏。

一文搞懂:什么是RoCE網(wǎng)絡(干貨)

一文徹底搞懂:什么是InfiniBand(IB)網(wǎng)絡【干貨】

一文徹底搞懂:什么是RDMA技術(shù)及其三個協(xié)議

一文讀懂:NVlink和NVSwitch技術(shù)及發(fā)展

一文讀懂:GPU的通信帶寬-運力

一文讓你徹底了解算力到底是如何計算出來的-算力的計算方法(CPU和GPU)

一文讀懂什么是智算和算力,讓你看懂算力的規(guī)模!

AI DC的到來,你還不知道什么是數(shù)據(jù)中心?30頁PPT讓你快速了解數(shù)據(jù)中心

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多