前言4月14日,2016 ODCC技術(shù)分享和成果宣貫會在深圳召開。開放數(shù)據(jù)中心委員會的技術(shù)專家分享了各自研究領(lǐng)域的最新進展及部分已公開成果。ODCC服務(wù)器工作組項目經(jīng)理、騰訊服務(wù)器平臺中心架構(gòu)師王偉,介紹了天蝎3.0在整機設(shè)計優(yōu)化方面的思考,并向行業(yè)征求意見。 和小編一起圍觀騰訊服務(wù)器平臺中心架構(gòu)師 王偉的精彩發(fā)言吧! ODCC服務(wù)器工作組項目經(jīng)理、騰訊服務(wù)器平臺中心架構(gòu)師 王偉大家好!去年11月份ODCC峰會上我們給大家展示了對天蝎3.0的展望。又過了一個季度,在這里給大家通報一下天蝎3.0最近研究的成果和進展,以及我們在一些方面優(yōu)化的訴求,也征求大家的意見。 天蝎整機柜的演進 天蝎1.0 架構(gòu)優(yōu)化,解耦服務(wù)器的風扇和電源,實現(xiàn)共享風扇、共享電源,提高資源利用率,降低TCO 20%; 天蝎2.0 硬件標準化,從整機結(jié)構(gòu),到節(jié)點形態(tài),到背板接口,到管理總線,全面細化并形成標準; 天蝎3.0 架構(gòu)優(yōu)化,進一步對服務(wù)器架構(gòu)進行重構(gòu),把服務(wù)器內(nèi)部的節(jié)點、部件、CPU內(nèi)存能夠做進一步池化,進一步提高資源利用率,降低TCO的同時,也能夠在服務(wù)器配置的靈活性和彈性交付上帶來收益。 天蝎3.0項目并不是技術(shù)宅為了做技術(shù)的探索而發(fā)起的項目,確確實實是因為在實際使用過程中發(fā)現(xiàn)了傳統(tǒng)服務(wù)器架構(gòu)的痛點,在資源利用率、彈性交付效率等方面存在不足,才發(fā)起的技術(shù)研究項目。 服務(wù)器資源利用率不足的問題,已經(jīng)在多種服務(wù)器上出現(xiàn)。譬如,存儲類應(yīng)用,溫存儲和冷存儲的服務(wù)器中的計算能力是過剩的,這造成了CPU/MEM/網(wǎng)絡(luò)的利用率偏低,從而造成了資源浪費。還有,虛擬化類應(yīng)用,服務(wù)器上的磁盤利用率是偏低的,因此虛擬化/云應(yīng)用轉(zhuǎn)向使用共享存儲來提高存儲利用率,已是趨勢。 彈性交付效率的問題,目前已經(jīng)在公有云的應(yīng)用中凸顯,多樣化客戶對虛擬機的配置存在極大差異,造成物理服務(wù)器的配置也存在較大差異,傳統(tǒng)的服務(wù)器定制化流程,往往需要3-6個月才能完成一款新型服務(wù)器的開發(fā)和測評,但是公有云客戶根本等不了這么久。 自2015年天蝎3.0項目啟動,經(jīng)過數(shù)輪討論和評估,確定了天蝎3.0項目需要聚焦解決的兩大技術(shù)挑戰(zhàn):互連和管理。從去年到現(xiàn)在重點是互連的Fabric研究,因為將服務(wù)器的IO等部件解耦,形成共享資源池,必然會涉及到這些資源池和CPU之間的互連互通、訪問時延、訪問帶寬等問題。為此產(chǎn)生的資源池直接的互連網(wǎng)絡(luò),我們稱之為數(shù)據(jù)平面Fabric,行業(yè)上習慣上稱之為東西向流量的交換。這個Fabric應(yīng)該怎么選擇什么樣的技術(shù)?其實去年已經(jīng)有一些初步的設(shè)想,并達成一些共識,選擇鎖定在使用PCIE、SAS和以太網(wǎng)。同時,天蝎3.0也提出數(shù)據(jù)平面網(wǎng)絡(luò)和管理平面網(wǎng)絡(luò)要作分離,而且在數(shù)據(jù)平面的網(wǎng)絡(luò)上也是分兩級,跨柜和柜內(nèi)的交換網(wǎng)絡(luò)可以采用不同的協(xié)議。 這一季度天蝎3.0項目在三種Fabric的研究上也產(chǎn)生了一些不同程度的進度和進展。今年Q1基于SAS互連的天蝎整機柜原形已經(jīng)有樣機,面向存儲類應(yīng)用場景。通過SAS的Fabric可以把SATA硬盤、SAS硬盤、SATA SSD形成共享存儲資源池,同時將存儲機頭(CPU+內(nèi)存+網(wǎng)卡)形成計算資源池。按照實際的工作負載可以選擇不同的計算、存儲的配比。對于冷存儲,可以選擇小的計算節(jié)點資源池,配置大量的存儲資源池。這樣就可以節(jié)約計算資源,包括CPU、內(nèi)存和網(wǎng)卡的成本,同時還可以減少很多功耗,整體上可以大幅降低服務(wù)器的TCO。今年,BAT三家都會對此開展應(yīng)用場景評估和測試。 基于PCIE互連的天蝎3.0原型機,近期也有了新的進展,新一輪樣機已經(jīng)完成,基于PCIe互連可以實現(xiàn)NVMe SSD、SAS/SATA 硬盤、SATA SSD,以及更多IO資源的共享?;谝蕴W(wǎng)互連的方案,目前還在評估中。 另外,Q1天蝎3.0還重點評估了另外一個內(nèi)容:線纜連接方式。設(shè)想一下,天蝎3.0增加了一個數(shù)據(jù)平面Fabric后,勢必增加很多線纜。每一個計算節(jié)點需要1-2根網(wǎng)線,用于南北向流量的網(wǎng)絡(luò);還需要1-2個cable用于數(shù)據(jù)平面的連接(東西向流量);還需要1根管理網(wǎng)絡(luò)的網(wǎng)線,合計3-5根cable。如果采用1U2節(jié)點的46U整機柜配置,那就會有240~400根cable,可以想象一下你面向有這么一臺整機柜,你看到它時,第一印象應(yīng)該是“誰家的毛線球放這兒了?”而且,面對這樣一臺全是線纜的整機柜服務(wù)器,后期維護運營時,是非常困難的。 因此,Q1天蝎3.0項目組開始評估是否可以采用后出線方案。后出線的應(yīng)用,在行業(yè)中已經(jīng)不是新鮮事物,傳統(tǒng)電信設(shè)備都是后出線,前維護的;微軟的OCS也是后出線的;今年OCP大會上也展出了TOCP的整機柜,也是后出線的。因此,面對未來更高密度的整機柜,為了簡化運營,后出線是一個很好的技術(shù)方向。工作組討論了多種方案,有兩個相對較為可行的方案,在這里跟大家分享一下: 方案一 cable Wall。利用節(jié)點和風扇墻之間的間隙,布置一個橫T型的連接器帶線纜的Cable Wall。這個方案的優(yōu)點是,整個機柜的線纜埋藏在機柜內(nèi)部,前后面板都非常整潔,運營維護非常容易。缺點是Cable Wall的連接密度較低,可以覆蓋的高度只有半柜高。 方案二 雙RBP,后出線。簡單來講,就是在機柜后面再增加一組RBP,兩組RBP最大可以實現(xiàn)滿柜80個節(jié)點的出現(xiàn)和互連,而且為每個節(jié)點預留了足夠大的網(wǎng)絡(luò)帶寬,所有的線纜在后面布局。這個方案的優(yōu)點是,配置靈活,如果1U只有1個節(jié)點,只需要配置1組RBP,而且每個節(jié)點的可用互連帶寬非常大。另外,通過RBP后出線,還有一個最大的好處,就是未來只需要更換RBP,就可以支持光互聯(lián)。當然,這個方案需要對天蝎整機柜的結(jié)構(gòu)進行重新優(yōu)化,包括壓縮風扇框?qū)挾龋匦略O(shè)計節(jié)點與RBP的互連方式等。 海量服務(wù)器運營,最注重的是自動化能力和簡易維護。因此天蝎3.0在服務(wù)器架構(gòu)重構(gòu)時,不僅僅要考慮如何在技術(shù)上實現(xiàn)資源池化的功能,更需要考慮如何簡化運營,提高維護效率。為此,我們面向所有ODCC的會員和非會員單位征求意見,主要是四方面: 一關(guān)于以太網(wǎng)池化的方案,以太網(wǎng)形成池化未來有哪些應(yīng)用場景,NVME資源池、GPU資源池等,通過以太網(wǎng)做Fabric有哪些比較優(yōu)秀的解決方案,大家比較熟悉或者某些公司做研究,都非常歡迎大家對天蝎組織進行貢獻。即便方案不成熟,但是理念非常好的話,也是非常歡迎大家一起探討 二關(guān)于后出線整機結(jié)構(gòu)的優(yōu)化,我們會評估后出線對天蝎未來的發(fā)展是不是應(yīng)該選擇的方向。這里包括TBP和RBP連接的器怎么放,非常歡迎連接器廠商和我們聯(lián)系,提出你們在連接器上的優(yōu)勢然后供我們選擇 三關(guān)于風扇框結(jié)構(gòu)壓縮的方案,壓縮之后可能有新的問題,對于風扇和結(jié)構(gòu)的部件廠商或者是服務(wù)器廠商也歡迎與我們聯(lián)系 四關(guān)于Fabric,天蝎提出有3種Fabric的選擇,作為連接器廠會怎么選,這是很好的問題。我們會選擇同一種連接器還是多種連接器,沒有形成定論。我們目前看到比較成熟或者正在標準化的連接器有很多,是用mini SAS HD,還是用QSFP+、Qculink,我們希望連接器廠商和我們聯(lián)系,看你們在標準和非標準的方面有沒有研究,我們需要的是密度更高。如果采用后出線,RBP面積有限,能出的線量很少。希望大家后續(xù)有相關(guān)的一些方案與我們ODCC服務(wù)器工作組聯(lián)系歡迎更多同仁一起交流探討!
公眾號ID:鵝廠網(wǎng)事請長按“圖標”關(guān)注我們吧! |
|
來自: 霍耕田 > 《IDC新技術(shù)》