< > 獵頭職位: 上海: Junior Product Manager 本文來自于NoSQLFan聯(lián)合作者@koven2049,他在淘寶從事Hadoop及HBase相關(guān)的應(yīng)用和優(yōu)化。對Hadoop、HBase都有深入的了解,本文就是其在工作中對HBase的應(yīng)用優(yōu)化小結(jié),分享給大家。 前言 hbase是從 hadoop中分離出來的apache頂級開源項目。由于它很好地用java實現(xiàn)了google的bigtable系統(tǒng)大部分特性,因此在數(shù)據(jù)量猛增的今天非常受到歡迎。對于淘寶而言,隨著市場規(guī)模的擴大,產(chǎn)品與技術(shù)的發(fā)展,業(yè)務(wù)數(shù)據(jù)量越來越大,對海量數(shù)據(jù)的高效插入和讀取變得越來越重要。由于淘寶擁有也許是國內(nèi)最大的單一hadoop集群(云梯),因此對hadoop系列的產(chǎn)品有比較深入的了解,也就自然希望使用hbase來做這樣一種海量數(shù)據(jù)讀寫服務(wù)。本篇文章將對淘寶最近一年來在online應(yīng)用上使用和優(yōu)化hbase的情況做一次小結(jié)。 原因 為什么要使用hbase? 淘寶在2011年之前所有的后端持久化存儲基本上都是在mysql上進行的(不排除少量oracle/bdb/tair/mongdb等),mysql由于開源,并且生態(tài)系統(tǒng)良好,本身擁有分庫分表等多種解決方案,因此很長一段時間內(nèi)都滿足淘寶大量業(yè)務(wù)的需求。 但是由于業(yè)務(wù)的多樣化發(fā)展,有越來越多的業(yè)務(wù)系統(tǒng)的需求開始發(fā)生了變化。一般來說有以下幾類變化:
當(dāng)然也必須指出,在大數(shù)據(jù)量的背景下銀彈是不存在的,hbase本身也有不適合的場景。比如,索引只支持主索引(或看成主組合索引),又比如服務(wù)是單點的,單臺機器宕機后在master恢復(fù)它期間它所負責(zé)的部分數(shù)據(jù)將無法服務(wù)等。這就要求在選型上需要對自己的應(yīng)用系統(tǒng)有足夠了解。 應(yīng)用情況 我們從2011年3月開始研究hbase如何用于在線服務(wù)。盡管之前在一淘搜索中己經(jīng)有了幾十節(jié)點的離線服務(wù)。這是因為hbase早期版本的目標(biāo)就是一個海量數(shù)據(jù)中的離線服務(wù)。2009年9月發(fā)布的0.20.0版本是一個里程碑,online應(yīng)用正式成為了hbase的目標(biāo),為此hbase引入了zookeeper來做為backupmaster以及regionserver的管理。2011年1月0.90.0版本是另一個里程碑,基本上我們今天看到的各大網(wǎng)站,如facebook/ebay/yahoo內(nèi)所使用于生產(chǎn)的hbase都是基于這一個版本(fb所采用的0.89版本結(jié)構(gòu)與0.90.x相近)。bloomfilter等諸多屬性加入了進來,性能也有極大提升?;诖?,淘寶也選用了0.90.x分支作為線上版本的基礎(chǔ)。 第一個上線的應(yīng)用是數(shù)據(jù)魔方中的prom。prom原先是基于redis構(gòu)建的,因為數(shù)據(jù)量持續(xù)增大以及需求的變化,因此我們用hbase重構(gòu)了它的存儲層。準(zhǔn)確的說prom更適合0.92版本的hbase,因為它不僅需要高速的在線讀寫,更需要count/group by等復(fù)雜應(yīng)用。但由于當(dāng)時0.92版本尚未成熟,因此我們自己單獨實現(xiàn)了coprocessor。prom的數(shù)據(jù)導(dǎo)入是來源于云梯,因此我們每天晚上花半個小時將數(shù)據(jù)從云梯上寫入hbase所在的hdfs,然后在web層做了一個client轉(zhuǎn)發(fā)。經(jīng)過一個月的數(shù)據(jù)比對,確認了速度比之redis并未有明顯下降,以及數(shù)據(jù)的準(zhǔn)確性,因此得以順利上線。 第二個上線的應(yīng)用是TimeTunnel,TimeTunnel是一個高效的、可靠的、可擴展的實時數(shù)據(jù)傳輸平臺,廣泛應(yīng)用于實時日志收集、數(shù)據(jù)實時監(jiān)控、廣告效果實時反饋、數(shù)據(jù)庫實時同步等領(lǐng)域。它與prom相比的特點是增加了在線寫。動態(tài)的數(shù)據(jù)增加使hbase上compact/balance/split/recovery等諸多特性受到了極大的挑戰(zhàn)。TT的寫入量大約一天20TB,讀的量約為此的1.5倍,我們?yōu)榇藴?zhǔn)備了20臺regionserver的集群,當(dāng)然底層的hdfs是公用的,數(shù)量更為龐大(下文會提到)。每天TT會為不同的業(yè)務(wù)在hbase上建不同的表,然后往該表上寫入數(shù)據(jù),即使我們將region的大小上限設(shè)為1GB,最大的幾個業(yè)務(wù)也會達到數(shù)千個region這樣的規(guī)模,可以說每一分鐘都會有數(shù)次split。在TT的上線過程中,我們修復(fù)了hbase很多關(guān)于split方面的bug,有好幾個commit到了hbase社區(qū),同時也將社區(qū)一些最新的patch打在了我們的版本上。split相關(guān)的bug應(yīng)該說是hbase中會導(dǎo)致數(shù)據(jù)丟失最大的風(fēng)險之一,這一點對于每個想使用hbase的開發(fā)者來說必須牢記。hbase由于采用了LSM-Tree模型,從架構(gòu)原理上來說數(shù)據(jù)幾乎沒有丟失的可能,但是在實際使用中不小心謹慎就有丟失風(fēng)險。原因后面會單獨強調(diào)。TT在預(yù)發(fā)過程中我們分別因為Meta表損壞以及split方面的bug曾經(jīng)丟失過數(shù)據(jù),因此也單獨寫了meta表恢復(fù)工具,確保今后不發(fā)生類似問題(hbase-0.90.5以后的版本都增加了類似工具)。另外,由于我們存放TT的機房并不穩(wěn)定,發(fā)生過很多次宕機事故,甚至發(fā)生過假死現(xiàn)象。因此我們也著手修改了一些patch,以提高宕機恢復(fù)時間,以及增強了監(jiān)控的強度。 CTU以及會員中心項目是兩個對在線要求比較高的項目,在這兩個項目中我們特別對hbase的慢響應(yīng)問題進行了研究。hbase的慢響應(yīng)現(xiàn)在一般歸納為四類原因:網(wǎng)絡(luò)原因、gc問題、命中率以及client的反序列化問題。我們現(xiàn)在對它們做了一些解決方案(后面會有介紹),以更好地對慢響應(yīng)有控制力。 和Facebook類似,我們也使用了hbase做為實時計算類項目的存儲層。目前對內(nèi)部己經(jīng)上線了部分實時項目,比如實時頁面點擊系統(tǒng),galaxy實時交易推薦以及直播間等內(nèi)部項目,用戶則是散布到公司內(nèi)各部門的運營小二們。與facebook的puma不同的是淘寶使用了多種方式做實時計算層,比如galaxy是使用類似affa的actor模式處理交易數(shù)據(jù),同時關(guān)聯(lián)商品表等維度表計算排行(TopN),而實時頁面點擊系統(tǒng)則是基于twitter開源的storm進行開發(fā),后臺通過TT獲取實時的日志數(shù)據(jù),計算流將中間結(jié)果以及動態(tài)維表持久化到hbase上,比如我們將rowkey設(shè)計為url+userid,并讀出實時的數(shù)據(jù),從而實現(xiàn)實時計算各個維度上的uv。 最后要特別提一下歷史交易訂單項目。這個項目實際上也是一個重構(gòu)項目,目的是從以前的solr+bdb的方案上遷移到hbase上來。由于它關(guān)系到己買到頁面,用戶使用頻率非常高,重要程度接近核心應(yīng)用,對數(shù)據(jù)丟失以及服務(wù)中斷是零容忍。它對compact做了優(yōu)化,避免大數(shù)據(jù)量的compact在服務(wù)時間內(nèi)發(fā)生。新增了定制的filter來實現(xiàn)分頁查詢,rowkey上對應(yīng)用進行了巧妙的設(shè)計以避免了冗余數(shù)據(jù)的傳輸以及90%以上的讀轉(zhuǎn)化成了順序讀。目前該集群存儲了超過百億的訂單數(shù)據(jù)以及數(shù)千億的索引數(shù)據(jù),線上故障率為0。 隨著業(yè)務(wù)的發(fā)展,目前我們定制的hbase集群己經(jīng)應(yīng)用到了線上超過二十個應(yīng)用,數(shù)百臺服務(wù)器上。包括淘寶首頁的商品實時推薦、廣泛用于賣家的實時量子統(tǒng)計等應(yīng)用,并且還有繼續(xù)增多以及向核心應(yīng)用靠近的趨勢。 部署、運維和監(jiān)控 Facebook之前曾經(jīng)透露過Facebook的hbase架構(gòu),可以說是非常不錯的。如他們將message服務(wù)的hbase集群按用戶分為數(shù)個集群,每個集群100臺服務(wù)器,擁有一臺namenode以及分為5個機架,每個機架上一臺zookeeper??梢哉f對于大數(shù)據(jù)量的服務(wù)這是一種優(yōu)良的架構(gòu)。對于淘寶來說,由于數(shù)據(jù)量遠沒有那么大,應(yīng)用也沒有那么核心,因此我們采用公用hdfs以及zookeeper集群的架構(gòu)。每個hdfs集群盡量不超過100臺規(guī)模(這是為了盡量限制namenode單點問題)。在其上架設(shè)數(shù)個hbase集群,每個集群一個master以及一個backupmaster。公用hdfs的好處是可以盡量減少compact的影響,以及均攤掉硬盤的成本,因為總有集群對磁盤空間要求高,也總有集群對磁盤空間要求低,混合在一起用從成本上是比較合算的。zookeeper集群公用,每個hbase集群在zk上分屬不同的根節(jié)點。通過zk的權(quán)限機制來保證hbase集群的相互獨立。zk的公用原因則僅僅是為了運維方便。 由于是在線應(yīng)用,運維和監(jiān)控就變得更加重要,由于之前的經(jīng)驗接近0,因此很難招到專門的hbase運維人員。我們的開發(fā)團隊和運維團隊從一開始就很重視該問題,很早就開始自行培養(yǎng)。以下講一些我們的運維和監(jiān)控經(jīng)驗。 我們定制的hbase很重要的一部分功能就是增加監(jiān)控。hbase本身可以發(fā)送ganglia監(jiān)控數(shù)據(jù),只是監(jiān)控項遠遠不夠,并且ganglia的展示方式并不直觀和突出。因此一方面我們在代碼中侵入式地增加了很多監(jiān)控點,比如compact/split/balance/flush隊列以及各個階段的耗時、讀寫各個階段的響應(yīng)時間、讀寫次數(shù)、region的open/close,以及具體到表和region級別的讀寫次數(shù)等等。仍然將它們通過socket的方式發(fā)送到ganglia中,ganglia會把它們記錄到rrd文件中,rrd文件的特點是歷史數(shù)據(jù)的精度會越來越低,因此我們自己編寫程序從rrd中讀出相應(yīng)的數(shù)據(jù)并持久化到其它地方,然后自己用js實現(xiàn)了一套監(jiān)控界面,將我們關(guān)心的數(shù)據(jù)以趨勢圖、餅圖等各種方式重點匯總和顯示出來,并且可以無精度損失地查看任意歷史數(shù)據(jù)。在顯示的同時會把部分非常重要的數(shù)據(jù),如讀寫次數(shù)、響應(yīng)時間等寫入數(shù)據(jù)庫,實現(xiàn)波動報警等自定義的報警。經(jīng)過以上措施,保證了我們總是能先于用戶發(fā)現(xiàn)集群的問題并及時修復(fù)。我們利用redis高效的排序算法實時地將每個region的讀寫次數(shù)進行排序,能夠在高負載的情況下找到具體請求次數(shù)排名較高的那些region,并把它們移到空閑的regionserver上去。在高峰期我們能對上百臺機器的數(shù)十萬個region進行實時排序。 為了隔離應(yīng)用的影響,我們在代碼層面實現(xiàn)了可以檢查不同client過來的連接,并且切斷某些client的連接,以在發(fā)生故障時,將故障隔離在某個應(yīng)用內(nèi)部而不擴大化。mapreduce的應(yīng)用也會控制在低峰期運行,比如在白天我們會關(guān)閉jobtracker等。 此外,為了保障服務(wù)從結(jié)果上的可用,我們也會定期跑讀寫測試、建表測試、hbck等命令。hbck是一個非常有用的工具,不過要注意它也是一個很重的工操作,因此盡量減少hbck的調(diào)用次數(shù),盡量不要并行運行hbck服務(wù)。在0.90.4以前的hbck會有一些機率使hbase宕機。另外為了確保hdfs的安全性,需要定期運行fsck等以檢查hdfs的狀態(tài),如block的replica數(shù)量等。 我們會每天根蹤所有線上服務(wù)器的日志,將錯誤日志全部找出來并且郵件給開發(fā)人員,以查明每一次error以上的問題原因和fix。直至錯誤降低為0。另外每一次的hbck結(jié)果如果有問題也會郵件給開發(fā)人員以處理掉。盡管并不是每一次error都會引發(fā)問題,甚至大部分error都只是分布式系統(tǒng)中的正?,F(xiàn)象,但明白它們問題的原因是非常重要的。 測試與發(fā)布 因為是未知的系統(tǒng),我們從一開始就非常注重測試。測試從一開始就分為性能測試和功能測試。性能測試主要是注意基準(zhǔn)測試,分很多場景,比如不同混合讀寫比例,不同k/v大小,不同列族數(shù),不同命中率,是否做presharding等等。每次運行都會持續(xù)數(shù)小時以得到準(zhǔn)確的結(jié)果。因此我們寫了一套自動化系統(tǒng),從web上選擇不同的場景,后臺會自動將測試參數(shù)傳到各臺服務(wù)器上去執(zhí)行。由于是測試分布式系統(tǒng),因此client也必須是分布式的。 我們判斷測試是否準(zhǔn)確的依據(jù)是同一個場景跑多次,是否數(shù)據(jù),以及運行曲線達到99%以上的重合度,這個工作非常煩瑣,以至于消耗了很多時間,但后來的事實證明它非常有意義。因為我們對它建立了100%的信任,這非常重要,比如后期我們的改進哪怕只提高2%的性能也能被準(zhǔn)確捕捉到,又比如某次代碼修改使compact隊列曲線有了一些起伏而被我們看到,從而找出了程序的bug,等等。 功能測試上則主要是接口測試和異常測試。接口測試一般作用不是很明顯,因為hbase本身的單元測試己經(jīng)使這部分被覆蓋到了。但異常測試非常重要,我們絕大部分bug修改都是在異常測試中發(fā)現(xiàn)的,這幫助我們?nèi)サ袅撕芏嗌a(chǎn)環(huán)境中可能存在的不穩(wěn)定因素,我們也提交了十幾個相應(yīng)的patch到社區(qū),并受到了重視和commit。分布式系統(tǒng)設(shè)計的難點和復(fù)雜度都在異常處理上,我們必須認為系統(tǒng)在通訊的任何時候都是不可靠的。某些難以復(fù)現(xiàn)的問題我們會通過查看代碼大體定位到問題以后,在代碼層面強行拋出異常來復(fù)現(xiàn)它。事實證明這非常有用。 為了方便和快速定位問題,我們設(shè)計了一套日志收集和處理的程序,以方便地從每臺服務(wù)器上抓取相應(yīng)的日志并按一定規(guī)律匯總。這非常重要,避免浪費大量的時間到登錄不同的服務(wù)器以尋找一個bug的線索。 由于hbase社區(qū)在不停發(fā)展,以及線上或測試環(huán)境發(fā)現(xiàn)的新的bug,我們需要制定一套有規(guī)律的發(fā)布模式。它既要避免頻繁的發(fā)布引起的不穩(wěn)定,又要避免長期不發(fā)布導(dǎo)致生產(chǎn)版本離開發(fā)版本越來越遠或是隱藏的bug爆發(fā)。我們強行規(guī)定每兩周從內(nèi)部trunk上release一個版本,該版本必須通過所有的測試包括回歸測試,并且在release后在一個小型的集群上24小時不受甘擾不停地運行。每個月會有一次發(fā)布,發(fā)布時采用最新release的版本,并且將現(xiàn)有的集群按重要性分級發(fā)布,以確保重要應(yīng)用不受新版本的潛在bug影響。事實證明自從我們引入這套發(fā)布機制后,由發(fā)布帶來的不穩(wěn)定因素大大下降了,并且線上版本也能保持不落后太多。 改進和優(yōu)化 Facebook是一家非常值得尊敬的公司,他們毫無保留地對外公布了對hbase的所有改造,并且將他們內(nèi)部實際使用的版本開源到了社區(qū)。facebook線上應(yīng)用的一個重要特點是他們關(guān)閉了split,以降低split帶來的風(fēng)險。與facebook不同,淘寶的業(yè)務(wù)數(shù)據(jù)量相對沒有如此龐大,并且由于應(yīng)用類型非常豐富,我們并們并沒有要求用戶強行選擇關(guān)閉split,而是盡量去修改split中可能存在的bug。到目前為止,雖然我們并不能說完全解決了這個問題,但是從0.90.2中暴露出來的諸多跟split以及宕機相關(guān)的可能引發(fā)的bug我們的測試環(huán)境上己經(jīng)被修復(fù)到接近了0,也為社區(qū)提交了10數(shù)個穩(wěn)定性相關(guān)的patch,比較重要的有以下幾個:
split這是一個很重的事務(wù),它有一個嚴重的問題就是會修改meta表(當(dāng)然宕機恢復(fù)時也有這個問題)。如果在此期間發(fā)生異常,很有可能meta表、rs內(nèi)存、master內(nèi)存以及hdfs上的文件會發(fā)生不一致,導(dǎo)致之后region重新分配時發(fā)生錯誤。其中一個錯誤就是有可能同一個region被兩個以上的regionserver所服務(wù),那么就可能出現(xiàn)這一個region所服務(wù)的數(shù)據(jù)會隨機分別寫到多臺rs上,讀取的時候也會分別讀取,導(dǎo)致數(shù)據(jù)丟失。想要恢復(fù)原狀,必須刪除掉其中一個rs上的region,這就導(dǎo)致了不得不主動刪掉數(shù)據(jù),從而引發(fā)數(shù)據(jù)丟失。 前面說到慢響應(yīng)的問題歸納為網(wǎng)絡(luò)原因、gc問題、命中率以及client的反序列化問題。網(wǎng)絡(luò)原因一般是網(wǎng)絡(luò)不穩(wěn)定引起的,不過也有可能是tcp參數(shù)設(shè)置問題,必須保證盡量減少包的延遲,如nodelay需要設(shè)置為true等,這些問題我們通過tcpdump等一系列工具專門定位過,證明tcp參數(shù)對包的組裝確實會造成慢連接。gc要根據(jù)應(yīng)用的類型來,一般在讀比較多的應(yīng)用中新生代不能設(shè)置得太小。命中率極大影響了響應(yīng)的時間,我們會盡量將version數(shù)設(shè)為1以增加緩存的容量,良好的balance也能幫助充分應(yīng)用好每臺機器的命中率。我們?yōu)榇嗽O(shè)計了表級別的balance。 由于hbase服務(wù)是單點的,即宕機一臺,則該臺機器所服務(wù)的數(shù)據(jù)在恢復(fù)前是無法讀寫的。宕機恢復(fù)速度決定了我們服務(wù)的可用率。為此主要做了幾點優(yōu)化。首先是將zk的宕機發(fā)現(xiàn)時間盡量縮短到1分鐘,其次改進了master恢復(fù)日志為并行恢復(fù),大大提高了master恢復(fù)日志的速度,然后我們修改了openhandler中可能出現(xiàn)的一些超時異常,以及死鎖,去掉了日志中可能發(fā)生的open…too long等異常。原生的hbase在宕機恢復(fù)時有可能發(fā)生10幾分鐘甚至半小時無法重啟的問題己經(jīng)被修復(fù)掉了。另外,hdfs層面我們將socket.timeout時間以及重試時間也縮短了,以降低datanode宕機引起的長時間block現(xiàn)象。 hbase本身讀寫層面的優(yōu)化我們目前并沒有做太多的工作,唯一打的patch是region增加時寫性能嚴重下降的問題。因為由于hbase本身良好的性能,我們通過大量測試找到了各種應(yīng)用場景中比較優(yōu)良的參數(shù)并應(yīng)用于生產(chǎn)環(huán)境后,都基本滿足需求。不過這是我們接下來的重要工作。 將來計劃 我們目前維護著淘寶內(nèi)基于社區(qū)0.90.x而定制的hbase版本。接下來除繼續(xù)fix它的bug外,會維護基于0.92.x修改的版本。之所以這樣,是因為0.92.x和0.90.x的兼容性并不是非常好,而且0.92.x修改掉的代碼非常多,粗略統(tǒng)計會超過30%。0.92中有我們非??粗氐囊恍┨匦?。
我們自己也有一些優(yōu)化,比如自行實現(xiàn)的二級索引、backup策略等都會在內(nèi)部版本上實現(xiàn)。 另外值得一提的是hdfs層面的優(yōu)化也非常重要,hadoop-1.0.0以及cloudera-3u3的改進對hbase非常有幫助,比如本地化讀、checksum的改進、datanode的keepalive設(shè)置、namenode的HA策略等。我們有一支優(yōu)秀的hdfs團隊來支持我們的hdfs層面工作,比如定位以及fix一些hdfs層面的bug,幫助提供一些hdfs上參數(shù)的建議,以及幫助實現(xiàn)namenode的HA等。最新的測試表明,3u3的checksum+本地化讀可以將隨機讀性能提升至少一倍。 我們正在做的一件有意義的事是實時監(jiān)控和調(diào)整regionserver的負載,能夠動態(tài)地將負載不足的集群上的服務(wù)器挪到負載較高的集群中,而整個過程對用戶完全透明。 總的來說,我們的策略是盡量和社區(qū)合作,以推動hbase在整個apache生態(tài)鏈以及業(yè)界的發(fā)展,使其能更穩(wěn)定地部署到更多的應(yīng)用中去,以降低使用門檻以及使用成本。 |
|