HDS工程師手記∣純干貨——閃存到底能跑多快？

清風(fēng)飛揚(yáng)1999 2016-01-17

展開全文

作者：HDS資深技術(shù)顧問呂峰

一說到閃存大家先想到的就是價(jià)格高，所以，我想從性價(jià)比說起。

第一個(gè)問題，閃存性價(jià)比高嗎？

其實(shí)，任何一種商品都是沒有絕對(duì)的貴和便宜的，我想舉個(gè)例子用數(shù)據(jù)說明。IO密集型應(yīng)用是一種常見的應(yīng)用類型，我們不妨假設(shè)有一個(gè)應(yīng)用的設(shè)計(jì)要求，IOPS需要達(dá)到26萬，采用傳統(tǒng)介質(zhì)和采用閃存介質(zhì)會(huì)是什么效果呢？為了能夠采用第三方公開評(píng)測(cè)數(shù)據(jù)，我選取了權(quán)威存儲(chǔ)性能第三方檢測(cè)機(jī)構(gòu)SPC測(cè)試報(bào)告作為數(shù)據(jù)來源：

從上表可以看到，在IO密集型應(yīng)用中，采用半個(gè)機(jī)柜的閃存加速模塊就可以超過1152塊15000轉(zhuǎn)硬盤的IO效果（IO數(shù)量更多，IO延遲降低80%）。如果按照每個(gè)IO來計(jì)算，閃存已經(jīng)是目前最便宜的選擇之一。

以上結(jié)果僅僅是老款HDS VSP的情況，是為了給您一個(gè)具體的數(shù)字概念而專門提出來的。畢竟VSP是2010年推出的產(chǎn)品，當(dāng)年26萬的IOPS已經(jīng)足夠笑傲江湖了。時(shí)光飛逝，到了2015年，VSP早已經(jīng)升級(jí)到了VSP G1000，閃存加速模塊也已經(jīng)升級(jí)到了第二代。目前的業(yè)界主流設(shè)備采用閃存介質(zhì)能夠達(dá)到什么樣的性能效果呢？這是我們的第二個(gè)問題！

第二個(gè)問題，幾個(gè)著名廠家的存儲(chǔ)設(shè)備配置閃存介質(zhì)能夠跑多快？

先看一下SPC-1的測(cè)試結(jié)果，這個(gè)測(cè)試主要關(guān)注IOPS和延遲：

再看一下SPC-2的測(cè)試結(jié)果，這個(gè)測(cè)試結(jié)果主要關(guān)注穩(wěn)定帶寬輸出：

通過上邊這些數(shù)據(jù)，不難發(fā)現(xiàn)，閃存介質(zhì)不僅在IO密集型應(yīng)用中獨(dú)領(lǐng)風(fēng)騷，更是已經(jīng)逐漸進(jìn)入了大帶寬應(yīng)用的范圍，在最新SPC-2測(cè)試報(bào)告中，兩家友商就是采用了閃存介質(zhì)。也許在不遠(yuǎn)的將來，真的是閃存遍地的節(jié)奏。但是，我們也看到，同樣是閃存介質(zhì)，單盤的性能發(fā)揮卻是差距巨大的。

第三個(gè)問題，同樣是閃存，性能差距咋就那么大呢？

主機(jī)IO落入到閃存介質(zhì)中，需要經(jīng)過光纖交換機(jī)、存儲(chǔ)控制器、閃存模塊，最終做到閃存顆粒。交換機(jī)大家沒有差別，同類型的閃存顆粒本身差別不大，比較熱門的eMLC概念，其實(shí)和普通MLC都是采用了MLC顆粒，只是在控制芯片和冗余顆粒比例上有差別，顆粒優(yōu)選之類的說法，也可以作為一個(gè)安慰選項(xiàng)。

最大的差別在閃存模塊控制器和存儲(chǔ)陣列控制器。

舉個(gè)例子來說，HDS的FMD閃存加速模塊是HDS為閃存介質(zhì)專門打造的專用模塊，一個(gè)模塊中就有146項(xiàng)技術(shù)專利，這些專利保證了FMD模塊本身既具備強(qiáng)大的性能，又能夠在不影響性能的情況下去實(shí)現(xiàn)數(shù)據(jù)壓縮、ECC校驗(yàn)、寫壓縮等復(fù)雜功能。這樣最大限度的解放了控制器的資源。采用成品的SSD硬盤，必須在控制器內(nèi)實(shí)現(xiàn)諸多復(fù)雜功能，必然是要做功能與性能的平衡，犧牲一些性能在所難免。你看看一塊SSD硬盤僅僅跑出不到2000 IOPS的悲催結(jié)果，就知道硬件為軟件功能犧牲了多少。

那么，存儲(chǔ)陣列控制器有多大差別呢？請(qǐng)看下表：

從上表可以看出，16個(gè)控制器的性能并不是8控制器的2倍，8控制器的性能，也不是雙控制器的4倍，甚至端口，似乎也不是線性關(guān)系，緩存更是有產(chǎn)品壓根找不到。單純看硬件指標(biāo)已經(jīng)很難確定設(shè)備檔次了，難道是真的到了軟件定義存儲(chǔ)的時(shí)代？我們先看看，軟件對(duì)存儲(chǔ)性能影響有多大吧！

要看軟件的影響，最好是同一產(chǎn)品在不同微碼下的測(cè)試結(jié)果。我摘取了兩家H公司的測(cè)試結(jié)果比較：

HDS的老款VSP是軟件升級(jí)后提升性能的典型代表，從老款微碼升級(jí)到針對(duì)閃存介質(zhì)的微碼后，配置閃存陣列加速模塊，性能翻倍達(dá)到60萬，延遲降低為0.72ms，效果是顯著的。

另一友商的18800是其最高端的存儲(chǔ)設(shè)備，第一版SPC-1測(cè)試報(bào)告比較奇怪，按照正常值估算，192塊SSD硬盤足夠支持100萬的IOPS，但是居然又配置了1344塊SAS硬盤，延遲居然達(dá)到5ms以上，為啥呢？我是沒想通過。最新的300萬IOPS的測(cè)試結(jié)果，讓人看到了國產(chǎn)設(shè)備的進(jìn)步！雖然單盤的性能還是僅有5000多，但是集群節(jié)點(diǎn)數(shù)量從8控制器到了16控制器，直追VMAX400K而去，單控制器的性能也從12萬提升到了19萬，考慮到更換了CPU，好像微碼的效率并沒有提升??！當(dāng)然，最大的進(jìn)步就是，延遲終于從5ms降低到了1ms以下，為蒙受不白之冤的閃存介質(zhì)平反了。不過HDS新發(fā)布的閃存模塊已經(jīng)大步走向0.1ms延遲了。

第四個(gè)問題，不同存儲(chǔ)設(shè)備的閃存性能差異那么大，怎么選擇合適的設(shè)備呢？

要發(fā)揮出閃存的性能優(yōu)勢(shì)，要有合適的閃存控制器、合適的存儲(chǔ)控制器和適當(dāng)數(shù)量的閃存介質(zhì)。

需要說明的是，HDS的VSP采用的高端緊耦合架構(gòu)，與傳統(tǒng)的多控制器松耦合架構(gòu)是不一樣的，所以，不像是其他產(chǎn)品可以清晰的分出到底是多少個(gè)控制器，上表中是按照引擎柜來計(jì)算的。

以選擇SPC-1業(yè)務(wù)模型下50萬IOPS來舉例說明，按照SPC-1測(cè)試結(jié)果折算會(huì)發(fā)現(xiàn)有意思的結(jié)果。

對(duì)于雙控制器中端存儲(chǔ)而言，50萬IOPS之后增加其他配置已經(jīng)沒有意義，某些友商則需要增加控制器數(shù)量，單純的增加硬盤和緩存是沒有意義的。增加控制器是個(gè)技術(shù)活，相當(dāng)于在集群中增加新節(jié)點(diǎn)。HDS從50萬升級(jí)到100萬IOPS，不需要新增機(jī)柜空間，不需要增加太多功耗，只需要在現(xiàn)有盤框里加硬盤，在控制框內(nèi)插板卡，全部是在線即可操作的。這就是高端存儲(chǔ)，超強(qiáng)的承載力，超簡單和平穩(wěn)的擴(kuò)容升級(jí)。

第五個(gè)問題，按照SPC-1測(cè)試模型就可以選到合適的設(shè)備嗎？

存儲(chǔ)性能本來就是一個(gè)復(fù)雜的問題，沒有完全相同的業(yè)務(wù)系統(tǒng)，即使完全相同的軟件和硬件，實(shí)際運(yùn)行起來也是千差萬別。SPC-1測(cè)試報(bào)告，最大的意義不在于比拼IOPS數(shù)值有多少，也不能保證SPC-1測(cè)試的配置在不同的應(yīng)用環(huán)境下一定測(cè)試出一樣的結(jié)果，它的最大意義是為廣大的用戶提供一個(gè)統(tǒng)一測(cè)試模型下各個(gè)廠家設(shè)備的對(duì)比平臺(tái)，讓我們看到一個(gè)存儲(chǔ)系統(tǒng)在滿負(fù)荷運(yùn)轉(zhuǎn)的情況下瓶頸在哪里，什么樣的配置是合理的，需要預(yù)防哪些問題。

具體到每個(gè)業(yè)務(wù)采用閃存之后會(huì)達(dá)到什么樣的效果，需要評(píng)測(cè)的話，第一步應(yīng)該了解業(yè)務(wù)的讀寫模型，這個(gè)讀寫模型包括非常多的內(nèi)容，包括數(shù)據(jù)塊的大小、讀寫比例、隨機(jī)和順序的比例、時(shí)間分布特點(diǎn)等。沒有調(diào)查研究就沒有發(fā)言權(quán)，沒有調(diào)查研究拍腦袋很容易掉到“常識(shí)”的陷阱里。

例如，前幾天我剛幫一個(gè)客戶分析了其數(shù)據(jù)讀寫的特點(diǎn)，為了保護(hù)客戶隱私隱去客戶名稱和實(shí)際IO量，僅以實(shí)際性能圖形說明問題。我們有一個(gè)常識(shí)，就是二八原則，通常讀是80%，寫是20%，據(jù)說很多交易系統(tǒng)都是這樣的。我們和客戶一開始討論也覺得應(yīng)該大體會(huì)符合這個(gè)規(guī)律。但是我們抽取了一個(gè)交易日全天的存儲(chǔ)性能日志進(jìn)行了分析，結(jié)果是這樣的：

從上圖中，很容易看出交易時(shí)間段（早九點(diǎn)到下午三點(diǎn)）實(shí)際應(yīng)用的IOPS中，寫占了絕大多數(shù)，我們知道大多數(shù)廠家宣傳的性能都是讀性能，存儲(chǔ)設(shè)備的寫入數(shù)據(jù)是有寫懲罰的，如果還是按照讀估算，如果留出的裕量不足夠大，買到的設(shè)備可能會(huì)有性能不足的問題。同時(shí)，我們通常認(rèn)為，數(shù)據(jù)庫的查詢數(shù)據(jù)塊大小應(yīng)該是小數(shù)據(jù)塊16K到64K。但實(shí)際存儲(chǔ)設(shè)備上的讀是什么樣子呢？

可以看到，讀數(shù)據(jù)塊基本都是100K以上的大數(shù)據(jù)塊，這個(gè)時(shí)候參考4K數(shù)據(jù)塊的性能就沒有太大意義。

我跟客戶一起看了這個(gè)性能分析結(jié)果，都覺得有點(diǎn)出乎意料，與二八原則不相符的原因我們不得而知，也許二八原則本也就是一個(gè)傳說而已。但是，有了真正業(yè)務(wù)數(shù)據(jù)讀寫模型，我們給客戶做了一個(gè)實(shí)際業(yè)務(wù)負(fù)載的性能模擬，讓客戶清晰的知道購買設(shè)備在具體業(yè)務(wù)模型下的性能表現(xiàn)，而且保證這種偏差率非常低。

本文稍微有點(diǎn)長，但是記得關(guān)鍵的一點(diǎn)，了解自己的業(yè)務(wù)是最核心的。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：清風(fēng)飛揚(yáng)1999 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)