來源:內(nèi)容由ank)轉(zhuǎn)載自公眾號企業(yè)存儲技術(shù),作者:Winnie shao,謝謝。
最近,大熱DPU賽道上的四家頭部創(chuàng)業(yè)新貴分享了他們的行業(yè)洞察和產(chǎn)品計劃。
在此,我們來總結(jié)一下,他們是如何看待這個潛力無限的市場的。一、大禹智芯:從業(yè)務(wù)需求推動底層創(chuàng)新
大禹智芯,作為第一個分享者,開頭開得很好。大禹智芯對DPU的定位是云計算的第三引擎,對自己的產(chǎn)品目標也描述得非常清晰:面向廣泛市場提供好用易用的產(chǎn)品。
第一個分享者擔負著科普DPU的歷史的責任。同樣講歷史,大禹是從業(yè)界真實產(chǎn)品與真實應(yīng)用的角度,分析并推導了DPU背后的產(chǎn)品邏輯,這與大禹的創(chuàng)始團隊都是來自公有云大廠因此他們是最懂業(yè)務(wù)的團隊這一背景非常相符。大禹智芯的CEO李爽,曾任美團云總經(jīng)理,他曾經(jīng)分享過團隊的產(chǎn)品策略,“從上層場景需求出發(fā)推動芯片等底層硬件的創(chuàng)新”,這也是DPU產(chǎn)品出現(xiàn)的邏輯, DPU是從公有云業(yè)務(wù)發(fā)展而來,是由業(yè)務(wù)場景反推出的一個產(chǎn)品,而不是由半導體公司主動定義然后去做客戶推廣的產(chǎn)品。這個產(chǎn)品邏輯的也解釋了大禹智芯的第一代產(chǎn)品是一個多核的ARM通用處理器SOC構(gòu)成,到了第二代才加上FPGA以加速更高帶寬的IO接口。通用ARM處理器的SOC架構(gòu)意味著,這是一個以解決業(yè)務(wù)卸載為切入點的產(chǎn)品(而不是業(yè)務(wù)加速,降成本的產(chǎn)品)。這跟DPU最成功案例的AWS的Nitro是一樣的發(fā)展經(jīng)歷。別以為DPU是一個硬件產(chǎn)品,這種高度可編程的芯片更多的工作在軟件。剛剛被AMD以19億美金收購的Pensando, 2/3的員工是軟件工程師。此次分享大禹智芯沒有透露他們的第三代產(chǎn)品信息,只說是去年年底就已經(jīng)開始研發(fā),相信今年6月加入的HPCA名人堂成員蔣曉維蔣博士會交一份不錯的答卷出來。作為第二個分享者, 中科馭數(shù)感謝了大禹智芯的對DPU的全面介紹,就直奔NVMeOF的存儲方案。也不知道是不是默契,四場技術(shù)分享,大禹的重點是業(yè)務(wù)全景圖,中科馭數(shù)局部集中在存儲,云豹把管控部分講得比較詳細, 最后的益思芯則是圍繞P4重點講網(wǎng)絡(luò)。沒有出現(xiàn),你講OpenStack的管控方案,我就拿K8s來對比,你介紹25G卡,我就拿100G卡出來的有火藥味的場面。中科馭數(shù)花了蠻長的時間,介紹了NVMeOF的協(xié)議,演進和實現(xiàn)難點,如果對NVMeOF有興趣,非常值得一聽。當然,我更感興趣的是中科馭數(shù)展示的最新的KPU 2代的架構(gòu),在那篇著名的DPU白皮書中有提到,這次算是一次更詳細的解讀。我對中科馭數(shù)的這個“軟件定義”加速器技術(shù),不算太理解,請教了一下之后的理解是:“軟”的意思是指KPU 2代采用了大量的專用處理器,數(shù)據(jù)的處理工作是由專用處理核上的軟件代碼來完成,這里的“軟”體現(xiàn)的是可編程能力。而“硬核”加速器的“軟件定義”體現(xiàn)在硬核的調(diào)度順序可編程上。無所謂是對專用處理器編程,還是對硬核調(diào)度編程,都是可編程,可軟件定義的,雖然聽上去都是有點難度的。KPU中的片上網(wǎng)絡(luò)FlashNOC, 盲猜是類似AXI cross bar結(jié)構(gòu)。可用P4編程的128核網(wǎng)絡(luò)引擎PPE,加上積累來的2年多的把TCP/IP棧全硬化的網(wǎng)絡(luò)加速引擎NOE,兼顧了網(wǎng)絡(luò)數(shù)據(jù)面的性能和靈活性兩方面的要求。數(shù)據(jù)庫/大數(shù)據(jù)加速引擎DOE,是最為獨特的加速引擎,這是一般DPU所沒有的,我只在IBM高端CPU見過。總之,在加速器這塊,有驚喜但是不意外,一方面中科馭數(shù)的孵化于研究專用處理器設(shè)計的中科院計算所和計算機體系結(jié)構(gòu)的重點實驗室,手熟;另一面中科馭數(shù)的產(chǎn)品理論是DPU要做“CPU做不好的,GPU做不了的”計算任務(wù),加速器是一個有效途徑。這個理念,好,也不好,加速器是比較容易做出彩,做出差異化的地方,但是也是在通用標準化相反方向上行走,這個方向需要有強大的產(chǎn)業(yè)領(lǐng)導力才能駕馭。KPU 2代目前已經(jīng)流片,下半年回片,這是四家中,芯片回來最早的,雖然并沒有集成ARM處理器,還不是soc方案。希望回片之后,能夠讀到有關(guān)FlashNOC和PPE的論文,中科馭數(shù)主導的DPU白皮書是業(yè)界一流的白皮書,有實際產(chǎn)品支撐的論文水平也應(yīng)該錯不了。三、云豹智能:高性能芯片推動基礎(chǔ)架構(gòu)創(chuàng)新
云豹智能對DPU的歷史解讀, 是從數(shù)據(jù)中心的帶寬從10G/25G向100G升級,服務(wù)器算力沒有跟上數(shù)據(jù)中心的帶寬發(fā)展,從而形成了剪刀差,而且一直占據(jù)核心地位的CPU更擅長做串行復雜處理,并不擅長大量并行的固定網(wǎng)絡(luò)數(shù)據(jù)處理的技術(shù)發(fā)展本身來切入的。
相對于大禹智芯從公有云業(yè)務(wù)出發(fā),云豹智能更像是遵循的是傳統(tǒng)芯片公司的角度, 是從下而上的推動底層硬件創(chuàng)新。但云豹智能絕對不是一家傳統(tǒng)芯片公司,它一直強調(diào)“軟件定義芯片”,這個與中科馭數(shù)的“軟件定義加速器技術(shù)”相同點在于通過軟件可編程能力去完成DPU架構(gòu)靈活性,不同點在于云豹從設(shè)計的第一天起,從需求開始,就在構(gòu)建可軟件定義的芯片架構(gòu)。本次的技術(shù)分享,大約遵循公司的信息分享原則, 云豹智能的發(fā)言人并沒有把他們對DPU的定位,一款世界級的極度復雜的高端芯片這樣的遠大目標直白的說出來,而是相當保守地分享了一個簡略架構(gòu)圖,花了更多的時間在軟件框架上。這顆高端復雜芯片的定位,也是和云豹智能的創(chuàng)始人有深厚的半導體公司的背景相吻合。云豹智能在去年發(fā)布了一個基于FPGA的25G網(wǎng)卡產(chǎn)品,軟件棧方面,會和后續(xù)的100G DPU產(chǎn)品無縫對接,可以當作低速預覽版。整場技術(shù)分享中, 云豹羅列的一個DPU要解決的挑戰(zhàn)任務(wù)表,倒是確實體現(xiàn)了他們對云計算業(yè)務(wù)痛點的理解。雖然他們并沒有分享他們會如何一一解決。希望明年交付的云豹DPU芯片可以帶來最終答案。一個打算最世界級芯片的公司還沒有公布任何硬件指標, 也挺讓人期待的。公平講,益思芯作為最后一個分享者,如果想避開前面已經(jīng)重點分享過的內(nèi)容,還是不容易的。益思芯非常小心的把自己的主題定為P4。 P4這種Domain-specific編程語言,確實提供了一個簡化硬件設(shè)計,也簡易化的軟件編程的數(shù)據(jù)包處理語言。最初P4是為交換機而設(shè)計的,發(fā)展壯大之后覆蓋面擴大,包括所有從核心到邊緣的所有網(wǎng)絡(luò)設(shè)備,特別適合不停演進且定制傾向強烈的overlay網(wǎng)絡(luò)的需求。更好的是,如果服務(wù)器網(wǎng)卡側(cè)支持P4,互聯(lián)的交換機也支持P4,理論上可以形成交換機+服務(wù)器的全數(shù)據(jù)中心數(shù)據(jù)面的聯(lián)動,這就是data center as a computer的具體呈現(xiàn)了。
雖然是David Patterson把DSA這個詞炒熱的,AI界的人力捧,但做出彩的是網(wǎng)絡(luò)界的人。P4是一個杰出Domain-Specific語言, 一個簡單的match-action模型,精準的描述出數(shù)據(jù)包的處理模型,在抽象和具體之間,拿捏到位,既針對網(wǎng)絡(luò),又與協(xié)議無關(guān),把數(shù)據(jù)面很好的抽象出來。而且近十年演進,加上Intel買了Barefoot,又在自己的IPU內(nèi)加入P4引擎,AMD買了Pensando,P4跟隨這兩大大廠,走在成為數(shù)據(jù)面的事實標準語言的路上。益思芯現(xiàn)在的FPGA版本,未來的P4引擎,大禹智芯現(xiàn)在的FPGA加速器,下一代SOC的DSA網(wǎng)絡(luò)引擎,中科馭數(shù)的NP類型的PPE,云豹的完全可編程DPU引擎,都能夠完成相似的P4功能。理論上CPU:NPU:FPGA:DSA的實現(xiàn)效率比是1:10:20:80,實際性能功耗就看各家的落地能力了,讓我們坐等測試數(shù)據(jù)。在本次技術(shù)分享中,益思芯大方地放出了目前2X25G的FPGA卡上的3層實測(非估計)轉(zhuǎn)發(fā)性能,這一點值得鼓勵,實測數(shù)字也是非常好。無論是從業(yè)務(wù)卸載隔離出發(fā), 從上到下的推動硬件創(chuàng)新,還是從下向上,用DSA硬件加速業(yè)務(wù),業(yè)界對DPU的芯片架構(gòu)認識趨于一致,必要的四個大子系統(tǒng):通用的CPU子系統(tǒng), 可編程的快速數(shù)據(jù)面,NVMe/RDMA/安全/壓縮等加速引擎,再加上高速IO與存儲接口子系統(tǒng)。加速引擎可能是最能區(qū)別化不同廠商設(shè)計等部分, 也會是決定性能和靈活度關(guān)鍵技術(shù)點。但加速引擎也是一個雙刃劍,光做硬件,軟件生態(tài)沒有跟上,效果歸零。第一代的主打加速的SmartNIC, 例如原Cavium現(xiàn)在Marvell的LiquidIO, 博通的Stingay的結(jié)局并不算好。 當然,這么強大的一顆DPU芯片,不會僅僅作為網(wǎng)卡形式出現(xiàn)。格局打開,更多的產(chǎn)品形態(tài)就出現(xiàn)了,防火墻,負載均衡器,5G RAN 控制器,交換機等等,例如Asterfusion 公司的可編程交換機就是一個P4 Switch+DPU的超級豪華版本。大家在白皮書/PPT/直播間里展示過的肌肉,最終都是要在機箱內(nèi),機架上實操的。Talk is cheap,show me your chips。注:本文只代表作者個人觀點,與任何組織機構(gòu)無關(guān)。