日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

英偉達「黃氏定律」讓未來的AI算力每年能夠提升一倍

 看見就非常 2021-01-17

今年的 GTC China 黃仁勛沒有露面,但黃式定律無處不在。

從翻倍提高 TensorCore 計算效能的新技術(shù),到下一代光通信技術(shù),再到一行代碼為所有模型提供 GPU 加速的軟件工具,為了讓未來的 AI 算力每年能夠提升一倍,英偉達找到了不少新方向。

12 月 15 日上午,英偉達 GTC 大會中國站在線上舉行,全球最負盛名的計算機科學(xué)家之一、NVIDIA 研究院負責人 Bill Dally 在活動中發(fā)表了主題演講。

在科技領(lǐng)域里,很多人都知道摩爾定律:前英特爾 CEO 大衛(wèi)·豪斯(David House)曾提出,人類制造出的芯片,每 18 個月計算效率就會提高一倍。這一「規(guī)律」在過去長達五十年間一直被實踐驗證,但在最近五六年中,由于晶體管尺寸越來越小,制程陷入瓶頸,摩爾定律逐漸失效。

而另一方面,人類對于計算機的算力需求是無限的,人工智能技術(shù)的發(fā)展更是加大了這種需求。近十年來,GPU正在讓人工智能算法的性能每年都在成倍提升,英偉達的研究人員通過架構(gòu)的提升,正在不斷尋找進一步加快AI推理速度的芯片。

英偉達提出了以自己創(chuàng)始人黃仁勛名字命名的黃氏定律(Huang’s Law)對單芯片AI推理能力進行了預(yù)測,提出每 12 月其數(shù)字將翻一倍。

pIYBAF_cdv2AKnOXAAGxgVsCQ-U690.png

如果我們還需要在未來的一段時間里使用硅芯片,那么摩爾定律之后,我們還可以仰賴「黃氏定律」保持AI技術(shù)的發(fā)展速度。

在芯片本身無法快速提升的情況下,英偉達把目光轉(zhuǎn)向了計算架構(gòu)的很多其他方面,Bill Dally 認為「這些方向其中的任何一個如果有效,都可以在接下來幾代的產(chǎn)品中幫助我們延續(xù)性能每年提升一倍的目標?!?/p>

首先是單卡計算效率。即使是英偉達目前的二代 Tensor Core,在進行推理時也無法把所有功耗用在數(shù)學(xué)運算上——效率被浪費在了數(shù)據(jù)傳輸上。英偉達設(shè)計了 MAGNet 系統(tǒng),用于探索更為高效的芯片架構(gòu)設(shè)計。

如果可以通過一個全局控制器,把數(shù)據(jù)從內(nèi)存不同的部分移動到不同計算單元以執(zhí)行計算,并針對神經(jīng)網(wǎng)絡(luò)計算的特性在數(shù)據(jù)流中加入一個存儲層,便可以解除瓶頸,將大部分能量用于計算。在特定的單元上,英偉達尚未發(fā)布的硬件產(chǎn)品可以實現(xiàn)每瓦 100 Teraops 的推理能力,而在 2019 年達到的效率還只有 29 Teraops。

pIYBAF_cdwqAHaw7AAK5sPrDRP0855.png

看來下一代的 Tensor Core 性能又要有巨大的提升了。

其次是多卡的數(shù)據(jù)傳輸,英偉達的 GPU 通過 NVlink 和 NVswitch 互相連接,然而基于電信號的方式目前已經(jīng)接近極限了,人們預(yù)估,想要繼續(xù)讓 NVLink 中信號傳輸?shù)膸捗看嵘槐叮瑢⒆兊脴O其困難。目前英偉達能夠?qū)崿F(xiàn)的數(shù)字是每線對 50Gb/s,可預(yù)見的未來大約可以實現(xiàn)到 100-200Gb/s。英偉達也在和英特爾等科技巨頭一樣思考如何盡快把基于光學(xué)的通信技術(shù)應(yīng)用于實踐。

作為一名研究者,Bill Dally 曾牽頭研發(fā)英偉達對于光信號傳輸?shù)脑妇埃汗馔ㄐ挪粌H可以大幅度提升帶寬(從幾百 Gb/s 到幾 Tb/s),提升傳輸空間(從幾十厘米到 20-100 米)并減少系統(tǒng)的復(fù)雜程度。

o4YBAF_cdymAPHZ3AALnbG_PdeA690.png

在英偉達的設(shè)計中,DGX 卡縱置排列,右側(cè)為光源,可為光線提供多種不同波長的光線,光學(xué)引擎以極高的數(shù)據(jù)速率把光轉(zhuǎn)換為信號。每根光纖都可以同時傳輸不同波長的光,而每種波長的光都可以用 25-50Gb/s 的速度傳輸信號。這樣一來,總數(shù)據(jù)速率將為 400Gb/s,而每根光纖的傳輸速率「保守估計」就可以達到數(shù)個 Tb/s,而且能耗還要比電信號要小。英偉達的研究團隊正在與哥倫比亞大學(xué)的研究人員密切合作,探討如何利用電信供應(yīng)商在其核心網(wǎng)絡(luò)中所采用的技術(shù),通過一條光纖來傳輸數(shù)十路信號——有了光通信,僅需一條 NVLink 就可以連接規(guī)模更大的系統(tǒng)。

英偉達還在嘗試一種名為「密集波分復(fù)用」的技術(shù), 有望在僅一毫米大小的芯片上實現(xiàn) Tb/s 級數(shù)據(jù)的傳輸,是如今互連密度的十倍以上。

o4YBAF_cdzeAaI1mAAK5xbJgoF0639.png

除了更大的吞吐量,光鏈路也有助于打造更為密集型的系統(tǒng)。Dally 舉例展示了一個未來將搭載 160 多個 GPU 的 NVIDIA DGX 系統(tǒng)模型。

除了硬件方面的革新,還有軟件。今天有很多應(yīng)用都在被 GPU 加速,遠超英偉達開發(fā)者們更新 CUDA 程序的速度,人們急需一種簡化的編程方式。NVIDIA 的研究人員開發(fā)了全新編程系統(tǒng)原型 Legate。開發(fā)者借助 Legate,即可在任何規(guī)模的系統(tǒng)上,運行針對單一 GPU 編寫的程序——甚至適用于諸如 Selene 等搭載數(shù)千個 GPU 的巨型超級計算機。
 

o4YBAF_cd0aAOgzhAAMvOyYduas306.png

對于大多數(shù)人來說,使用 Legate 我們就可以無需更改代碼即讓 Python 程序無感運行在從 Jetson Nano 到 DGX SuperPOD 等所有包含英偉達 cuda 核心的設(shè)備上。開發(fā)者所做的是基于原始的 Python 代碼,將原本的「import NumPy as NP」更改為「import legate.numpy as NP」就可以了。隨后 Legate 庫會開始運行,自動完成之后的操作。

pIYBAF_cd1aAH-i9AAJ7yu5qAhY257.png

它的運行速率有多快呢?從上表中可以看到,Legate 的處理速度不僅快于目前效率最高的庫,同時在并行化時也能盡量保持住自己的優(yōu)勢。

英偉達也分享了目前國內(nèi)合作伙伴使用新一代芯片的情況:阿里云、百度智能云、滴滴云、騰訊云的大型數(shù)據(jù)中心正在遷移至基于英偉達 Ampere 架構(gòu)的平臺。圖像識別、語音識別,以及包括計算流體動力學(xué)、計算金融學(xué)、分子動力學(xué)在內(nèi)的 GPU 加速高性能計算場景的快速增長,催生了更多對云實例的需求。

在硬件方面,新華三、浪潮、聯(lián)想、寧暢等中國領(lǐng)先系統(tǒng)制造商也在將 A100 GPU 引入到自身產(chǎn)品中,并推出了多款針對不同應(yīng)用場景的系列產(chǎn)品,為超大型數(shù)據(jù)中心提供基于 Ampere 架構(gòu)的加速系統(tǒng),進而為用戶提供兼具超強性能與靈活性的 AI 計算平臺。
編輯:hfy

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多