?你應該知道的 HBase 基礎，都在這兒了

昵稱42427018 2019-04-19

展開全文

阿里妹導讀：2006 年10 月Google 發(fā)布三架馬車之一的《Bigtable：A Distributed Storage System for Strctured Data》論文之后，Powerset 公司就宣布 HBase 在 Hadoop 項目中成立，作為子項目存在。后來，在2010 年左右逐漸成為 Apache 旗下的一個頂級項目。可能是實際應用中包裝得太好，很多人對于 HBase 的認識止步于 NoSQL 。今天，螞蟻金服的南俊從基礎開始講起，希望有助于增強大家在實際業(yè)務中對 HBase 的理解。

一、 HBase 簡介

HBase 名稱的由來是由于其作為 Hadoop Database 存在的，用來存儲非結構化、半結構化數(shù)據。

要想知道 HBase 的用途，就需要看一看其在 Apache 的 Hadoop 生態(tài)系統(tǒng)中的位置，可以看到 HBase 是構建在 HDFS 之上的，這是由于 HBase 內部管理的文件全部都是存儲在 HDFS 當中的。同時，MapReduce 這個計算框架在 HBase 之上又提供了高性能的計算能力來處理海量數(shù)據。此外還有一些像 Pig、Hive 用來提供高層語言的支持。還有 Sqoop 用來完成傳統(tǒng)數(shù)據庫到 HBase 之間的數(shù)據遷移。類似衍生出來的新技術還有很多，有興趣的同學可以自己去了解一下。

Google 的三架馬車 BigTable、GFS、MapReduce 現(xiàn)在在開源社區(qū)中都能找到對應的實現(xiàn)。HBase 就是 Bigtable 的開源實現(xiàn)，當然這句話不是完全正確，因為兩者之間還是有些差異的。但是主要還是基于 BigTable 這個數(shù)據模型開發(fā)的，因此也是具有 Key-Value 特征的，同時也就具有 Bigtable 稀疏的、面向列的這些特性。

也是由于 HBase 利用 HDFS 作為它的文件系統(tǒng)，因此它也具有 HDFS 的高可靠性和可伸縮性。和 Hadoop 一樣，HBase 也是依照橫向擴展，通過不斷地通過添加廉價的服務器來增加計算和存儲的能力。BigTable 利用 Chubby 來進行協(xié)同服務，HBase 則是利用 Zookeeper 來對整個分布式系統(tǒng)進行協(xié)調服務。正是因為通過HDFS 的高可靠可伸縮性，以及應用了 Bigtable 的稀疏的面向列的這些高效的數(shù)據組織形式。所以 HBase 才能如此地適合大數(shù)據隨機和實時讀寫。

二、 HBase 基本概念

這里介紹一下 HBase 的一些基本概念：

RowKey（行鍵），顧名思義也就是我們在關系型數(shù)據庫中常見的主鍵，它是Unique 的，在 HBase 中這個主鍵可以是任意的字符串，其最大長度是64K，在內部存儲中會被存儲為字節(jié)數(shù)組，HBase 表中的數(shù)據是按照 RowKey 的字典序排列的，例如很多索引的實現(xiàn)，包括地理空間索引很大程度就是依賴這個特性。

不過也要注意一個點，現(xiàn)實當中期望排序是1、2、3、4...10，而在 HBase 中1 后面緊跟的會是10。因此，在設計行鍵的時候一定要充分地利用字典序這個特性，將一下經常讀取的行存儲到一起或者靠近，減少Scan 的耗時，提高讀取的效率。這里一定要說的一點是，行鍵設計真的很重要，例如做組合行鍵時將時間排前面，導致寫熱點（曾經踩過的坑，記憶猶新）。

Column Family（列族），它是由若干列構成，是表 Schema 的一部分，所以需要在創(chuàng)建表的時候就指定好。但也不是所表創(chuàng)建完之后就不能更改列族，只是成本會比較大，因此不建議更改。HBase 中可允許定義的列族個數(shù)最多就20多個。列族不僅僅能夠幫助我們構建數(shù)據的語義邊界，還能有助于我們設置某些特性，比如可以指定某個列族內數(shù)據的壓縮形式。一個列族包含的所有列在物理存儲上都是在同一個底層的存儲文件當中。

Column （列），一般都是從屬于某個列族，跟列族不一樣，列的數(shù)量一般的沒有強限制的，一個列族當中可以有數(shù)百萬個列，而且這些列都可以動態(tài)添加的。這也是我們常說的 HBase 面向列的優(yōu)點，不像傳統(tǒng)的關系型數(shù)據庫，調整一下 Schema 都需要擔心對于生產的影響。

Version Number（版本號），HBase 中每一列的值或者說是每個單元格的值都是具有版本號的，默認使用的系統(tǒng)當前的時間戳，精確到毫秒。當然也可以是用戶自己顯式地設置，我們是通過時間戳來識別不同的版本，因此如果要自己設置的話，也要保證版本號的唯一性。用戶也可以指定保存指定單元格的最后 N 個版本，或者某個時間段的版本，這個是可以在配置中配置的。一個單元格里面是數(shù)據是按照版本號降序的。也就是說最后寫入的值會被最先讀取。

Cell（單元格），一個單元格就是由前面說的行鍵、列標示、版本號唯一確定的，這里說的列標示包括列族和列名。Cell 中的數(shù)據是沒有類型的，全部都是字節(jié)碼。

三、HBase 表邏輯視圖

由于 HBase 表的一個單元格是由多維決定的，我這里嘗試用一個二維的電子表格來展示。可以結合前面說的 HBase 的基本概念來理解。可以看到通過二維表格來展示一個成績表，中間有很多單元格是空的，整體看起來很稀疏，需要說明的是在 HBase 的實際存儲中這些空的單元格并不占存儲。

四、HBase 表物理視圖

物理視圖比較復雜，下面以圖來展示一個 HBase 表從宏觀到微觀到物理存儲。盡量以最簡單到方式展示物理視圖的幾個層次。

表的橫向切分（Table?Region）

Region 的分裂

Region 的分布

Region 的存儲結構

一個 Region 是由一個或多個 Store 組成。每一個 Store 其實就是一個列族。每個

Store 又是由一個 memStore 和 0 個或者多個 storeFile 組成。memStore 是存儲在內存中，storeFile 是存儲在 HDFS 中，有時候也稱作 HFile。數(shù)據都會先寫入memStore，一旦 memStore 超過給的的最大值之后，HBase 就會將memStore 持久化為 storeFile。

五、HBase 集群結構

一個 HBase 集群一般由一個 Master 和多個 RegionServer 組成。

客戶端庫：可以通過 HBase 提供的各式語言API 庫訪問集群。API 庫也會維護一個本地緩存來加快對 HBase 對訪問，比如緩存中記錄著 Region 的位置信息。
Maste 節(jié)點：主要為各個 RegionServer 分配 Region，負責 RegionServer 對負載均衡，管理用戶對于 Table 對 CRUD 操作。
RegionServer：維護 Region，處理對這些 Region 對IO 請求，負責切分在運行過程中變過大的 Region。

參考資料：HBase權威指南