日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

陳根:DPU蔚然成風,攪動傳統(tǒng)計算體系

 陳根談科技 2021-08-24

/陳根

很長一段時間以來,算力的天下都由中央處理器CPU圖形處理單元GPU平分,也是因為CPUGPU為龐大的新超大規(guī)模數(shù)據(jù)中心提供了動力才使得計算得以擺脫PC和服務器的繁瑣局限。

然而近幾年,隨著系統(tǒng)中的CPU承受越來越多的網(wǎng)絡和存儲工作負載,已有的通用CPUGPU開始不能完全滿足快速變化的應用需求,性能更強大,更加專用,更加異構(gòu)的數(shù)據(jù)處理單元(DPU登上了歷史的舞臺。

當前,DPU已成為以數(shù)據(jù)為中心的加速計算模型的三大支柱之一。改變計算體系的端倪也正在浮現(xiàn)。

  從二分天下到三分天下

1950年代以來,中央處理器CPU一直是每臺計算機或智能設(shè)備的核心,是大多數(shù)計算機中唯一的可編程元件。并且,CPU誕生后,工程師也一直沒放棄讓CPU消耗最少的能源實現(xiàn)最快的計算速度的努力。即便如此,人們還是發(fā)現(xiàn)CPU做圖形計算太慢。在這樣的背景下,圖形處理單元GPU應運而生。

英偉達提出了GPU的概念,將GPU提升到了一個單獨的計算單元的地位。GPU是在緩沖區(qū)中快速操作和修改內(nèi)存的專用電路,因為可以加速圖片的創(chuàng)建和渲染,所以得以在嵌入式系統(tǒng)、移動設(shè)備、個人電腦以及工作站等設(shè)備上廣泛應用。1990年代以來,GPU逐漸成為了計算的中心。

事實上,最初GPU還只是用來做功能強大的實時圖形處理。后來,憑借其優(yōu)秀的并行處理能力,GPU已經(jīng)成為各種加速計算任務的理想選擇。隨著機器學習和大數(shù)據(jù)的發(fā)展,很多公司都會使用GPU加速訓練任務的執(zhí)行,這也是今天數(shù)據(jù)中心中比較常見的用例。

相較于CPU大多數(shù)的CPU不僅期望在盡可能短的時間內(nèi)更快地完成任務以降低系統(tǒng)的延遲,還需要在不同任務之間快速切換保證實時性。正是因為這樣的需求,CPU往往都會串行地執(zhí)行任務。GPU的設(shè)計CPU完全不同,它期望提高系統(tǒng)的吞吐量,在同一時間竭盡全力處理更多的任務。

設(shè)計理念上的差異最終反映到了CPUGPU的核心數(shù)量上,GPU往往具有更多的核心數(shù)量。當然,CPUGPU的差異也很好地形成了互補,其組合搭配在過去的幾十年里,也為龐大的新超大規(guī)模數(shù)據(jù)中心提供了動力,使得計算得以擺脫PC和服務器的繁瑣局限

然而,近幾年,隨著系統(tǒng)中的CPU承受越來越多的網(wǎng)絡和存儲工作負載,已有的通用CPUGPU開始不能完全滿足快速變化的應用需求據(jù)IDC統(tǒng)計,近10年來全球算力增長明顯滯后于數(shù)據(jù)的增長。3.5個月全球算力的需求就會翻一倍,遠遠超過了當前算力的增長速度。

在此驅(qū)動下,全球計算、存儲和網(wǎng)絡基礎(chǔ)設(shè)施也在發(fā)生根本轉(zhuǎn)變,一些復雜的工作負載,在通用的CPU上不能很好的處理。或者說,以CPU為中心的數(shù)據(jù)中心架構(gòu)已經(jīng)不能滿足需求,以數(shù)據(jù)為中心才能更好滿足市場和應用需求

英偉達網(wǎng)絡事業(yè)部亞太區(qū)市場開發(fā)高級總監(jiān)宋慶春此前就表示:“以前計算規(guī)模和數(shù)據(jù)量沒那么大,馮諾依曼架構(gòu)很好地解決了提高計算性能的問題隨著數(shù)據(jù)量越來越大,以及AI技術(shù)的發(fā)展,傳統(tǒng)的計算模型會造成網(wǎng)絡擁塞,繼續(xù)提升數(shù)據(jù)中心的性能面臨挑戰(zhàn)。”

數(shù)據(jù)處理單元DPU的出現(xiàn)或?qū)⒔饩冗@一困境,作為最新發(fā)展起來的專用處理器的一個大類,DPU為高帶寬、低延遲、數(shù)據(jù)密集的計算場景提供計算引擎。當前,DPU已成為以數(shù)據(jù)為中心的加速計算模型的三大支柱之一,還將成為CPU的卸載引擎,釋放CPU算力到上層。

  DPU蔚然成風

按照技術(shù)出現(xiàn)的時間順序和特點,DPU的發(fā)展則可以分為三個階段。

第一階段智能設(shè)備階段,這一階段也可以稱為DPU的史前時代。在這一階段,解決節(jié)點間流量問題的最簡單的方式是增加網(wǎng)卡的處理能力,通過在網(wǎng)卡上面引入SoC或者FPGA的方式加速某些特定流量應用,從而加強網(wǎng)絡的可靠性,降低網(wǎng)絡延遲,提升網(wǎng)絡性能。

其中,XilinxMellanox在這個領(lǐng)域進行的比較早,可惜由于戰(zhàn)略能力不足,錯失了進一步發(fā)展的機會,逐漸被DPU取代,最終被淘汰。其中MellanoxNvidia收購,XilinxAMD拿下。智能網(wǎng)卡成為DPU的應用產(chǎn)品而存在。

第二階段數(shù)據(jù)處理芯片階段,這個階段是數(shù)據(jù)芯片真正開始被重視的階段。最開始由Fungible2019年提出,但沒有引起太多反響英偉達將收購來的Mellanox重新包裝之后,202010重新定義了DPU這個概念,這一次的重新定義使得DPU這個概念一炮而紅。

具體來看,DPU被定義為一種新型可編程處理器,集三個關(guān)鍵要素于一身,包括:行業(yè)標準的、高性能及軟件可編程的多核CPU,通常基于已應用廣泛的Arm架構(gòu),與其的SOC組件密切配合;高性能網(wǎng)絡接口,能以線速或網(wǎng)絡中的可用速度解析、處理數(shù)據(jù),并高效地將數(shù)據(jù)傳輸?shù)?/span>GPUCPU;以及各種靈活和可編程的加速引擎,可以卸載AI、機器學習、安全、電信和存儲等應用,并提升性能。

第三階段則是基礎(chǔ)設(shè)施芯片階段。第三階段的方案由Intel提出,變成FPGA+Xeon-D的模式,通過PCB版的方式放在一個智能網(wǎng)卡上。不難發(fā)現(xiàn),IntelIPU定位成host CPU上面一個外掛的小CPU。并且,未來這個外掛CPUFPGA會封裝到一個芯片中,形成一個通過PCIe總線互聯(lián)的兩個CPU系統(tǒng)。

當然,無論處于哪個階段,所有這些DPU功能對于實現(xiàn)安全的、裸性能的、原生云計算的下一代云上大規(guī)模計算都具有重要意義。正如英偉達首席執(zhí)行官黃仁勛此前在演講中表示,它將成為未來計算的三大支柱之一”,“CPU用于通用計算,GPU用于加速計算,而數(shù)據(jù)中心中傳輸數(shù)據(jù)的DPU則進行數(shù)據(jù)處理。

一方面,GPU更安全,因為控制平面可以在系統(tǒng)內(nèi)和系統(tǒng)集群之間與數(shù)據(jù)平面分離。DPU可以執(zhí)行原本需要CPU處理的網(wǎng)絡、存儲和安全等任務。這就意味著如果在數(shù)據(jù)中心中采用了DPU,那么CPU的不少運算能力可以被釋放出來,去執(zhí)行廣泛的企業(yè)應用。

另一方面,DPU還釋放了服務器的容量,以便它們可以恢復到應用程序計算。在一些具有大量I / O和沉重虛擬化的系統(tǒng)上內(nèi)核成本縮減一半,因此吞吐量提高了2倍。除了內(nèi)核的成本,還要計算整個機器的成本,包括其內(nèi)存和I / O以及所釋放的工作量。

此外,DPU豐富的、靈活和可編程的加速引擎可減輕和改善AI和機器學習應用的性能。所有的這些DPU功能對于實現(xiàn)隔離的裸機云原生計算至關(guān)重要,它將定義下一代云規(guī)模計算,改變存儲行業(yè)的端倪也正在浮現(xiàn)。

  以數(shù)據(jù)為中心

DPU廣闊的市場空間,也讓國際巨頭開始紛紛提前布局。目前DPU主要廠商有Intel (收購Bearfoot), Mellanox(已被Nvidia收購),Marvell(收購了Cavium),Broadcom, Fungible(初創(chuàng)),Pensando(初創(chuàng))。

其中,Intel是基于FPGA實現(xiàn)的,主要面向交換機、路由器芯片;Broadcom基于Arm實現(xiàn),也是主要面向交換機、路由器芯片;Marvell通過收購Cavium,基于Arm實現(xiàn),主要面向5G的基帶;初創(chuàng)公司Pensando通過軟件定義網(wǎng)絡處理器,主要面向支持 P4SDN

中科馭數(shù)的創(chuàng)始團隊國內(nèi)較早進行DPU芯片研發(fā)的先行者。他們創(chuàng)新性提出了軟件定義加速器技術(shù)(Software Defined Accelerator),自主研發(fā)了KPUKernel Processing Unit)芯片架構(gòu),2019年設(shè)計了業(yè)界首顆數(shù)據(jù)庫與時序數(shù)據(jù)處理融合加速芯片,已經(jīng)成功流片。

此外,KPU架構(gòu)為核心,在2019年流片第一顆芯片的基礎(chǔ)上,中科馭數(shù)宣布了其下一顆DPU芯片研發(fā)計劃,功能層面包括完善的L2/ L3/L4層的網(wǎng)絡協(xié)議處理,可處理高達200G網(wǎng)絡帶寬數(shù)據(jù)。其次融合數(shù)據(jù)庫、大數(shù)據(jù)處理能力,直接面向OLAPOLTP及大數(shù)據(jù)處理平臺,如Spark等。另外還囊括機器學習計算核以及安全加密運算核。該芯片預計將于2021年底流片。

幾乎可以確定,DPU已成為未來以數(shù)據(jù)為中心的必須。但DPU依然面臨其本身需要克服的關(guān)卡。現(xiàn)在,DPU最大的問題就是“過熱”,功耗太高。以前一個網(wǎng)絡DMA芯片功耗才5瓦左右,現(xiàn)在一個DPU動則100瓦以上(Fungible F1 120瓦)。

這意味著,大部分應用場景無法用承受這么大功耗的網(wǎng)絡設(shè)備。尤其是在100/200G以上,光模塊功耗已經(jīng)超過網(wǎng)絡設(shè)備的情況下,再增加一個100瓦的網(wǎng)絡DPU,會極大的提升網(wǎng)絡的能源消耗,所以必須解決DPU功耗問題。

和功耗一樣,當前的DPU還面臨成本太高的問題,基于DPU的解決方案變沒有降低網(wǎng)絡互聯(lián)的成本。此外,目前DPU都是面向數(shù)據(jù)中心的應用場景。但服務器增長空間更多在邊緣計算中心,而且未來邊緣計算互聯(lián)將成為網(wǎng)絡技術(shù)趨勢。因此,DPU必須考慮邊緣計算場景。

當然,無論如何,DPU的出現(xiàn)并非要替代CPUGPU,而是更好地滿足數(shù)據(jù)中心市場的需求。可以預見,從CPUGPU再到DPU一體的架構(gòu)將會讓管理程序、調(diào)度程序都會變得更加容易。從邊緣到核心數(shù)據(jù)中心,統(tǒng)一架構(gòu)、統(tǒng)一管理、統(tǒng)一調(diào)度或?qū)⒃诓痪弥蟮靡?/span>實現(xiàn)。

    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多