世界級的開源項目：TiDB 如何重新定義下一代關系型數(shù)據(jù)庫

ngl1125 2019-05-13

展開全文

TechWeb

2017-06-24 03:02

【51CTO.com原創(chuàng)稿件】著名的開源分布式緩存服務 Codis 的作者，PingCAP 聯(lián)合創(chuàng)始人& CTO ，資深 infrastructure 工程師的黃東旭，擅長分布式存儲系統(tǒng)的設計與實現(xiàn)，開源狂熱分子的技術大神級別人物。即使在互聯(lián)網(wǎng)如此繁榮的今天，在數(shù)據(jù)庫這片邊界模糊且不確定地帶，他還在努力尋找確定性的實踐方向。

在數(shù)據(jù)庫的平行世界里，黃東旭以不同的方式在追隨著自己的內(nèi)心。他認為，通常傳統(tǒng)的關系型數(shù)據(jù)庫無法滿足海量數(shù)據(jù)處理和分析時，新一輪的窗口期也隨之需求開啟，但是各類劣勢架構(gòu)、內(nèi)存架構(gòu)、 NoSQL 等方案都不能滿足自己理想的解決方案，這些都不夠美，很少能夠把分布式事務與彈性擴展做到完美。

絕對的理性與感性，在黃東旭的身上看似矛盾，直到 2012 年底，他看到 Google 發(fā)布的兩篇論文，如同棱鏡般，折射出他自己內(nèi)心微爍的光彩。這兩篇論文描述了 Google 內(nèi)部使用的一個海量關系型數(shù)據(jù)庫 F1/Spanner ，解決了關系型數(shù)據(jù)庫、彈性擴展以及全球分布的問題，并在生產(chǎn)中大規(guī)模使用。“如果這個能實現(xiàn)，對數(shù)據(jù)存儲領域來說將是顛覆性的”，黃東旭為完美方案的出現(xiàn)而興奮， PingCAP 的 TiDB 在此基礎上誕生了。

當然，每向前進一步，都需要付出巨大的努力。在啟動 TiDB 項目之前，黃東旭先完成了一個開源分布式的 Redis 集群方案 Codis ，這個項目完成以后讓他們覺得雖然緩存的水平擴展問題有了解決方案，但是底層的關系型數(shù)據(jù)庫（主要是 MySQL 為主）并沒有一個優(yōu)雅的擴展方案。業(yè)界除了在業(yè)務層分庫分表，或者使用中間件等折衷方案外，并沒有其他太多的辦法，有些業(yè)務可能能遷移到 NoSQL 之上，例如 HBase 、 C* 等，跟很多的業(yè)務沒法平滑遷移，幾乎需要重寫全部邏輯。如果采用分庫分表和中間件的方案，擴展以及高可用的方案會帶來大量額外的運維成本，比如無法使用跨 shard 的 join、子查詢、跨行事務等。

但是作為一個基礎軟件工程師的黃東旭他們不希望將這些復雜度轉(zhuǎn)嫁給業(yè)務層，所以就開始重新審視整個數(shù)據(jù)庫，希望從根本上解決 MySQL 的擴展問題，而不是再造一個中間件。

“如果創(chuàng)造一個全新的東西，使它有一天能夠成為生產(chǎn)力，那種感覺真好！”

在 2012 、 2013 年期間，黃東旭他們就開始研究了Google 發(fā)表的一系列關于新一代分布式數(shù)據(jù)庫 Spanner 和 F1 的論文以及相關的學術界的進展，直到 2015 年，他們覺得基本所有的技術問題和架構(gòu)都已經(jīng)思考得差不多了，于是決定出來全職去重新開始完整的實現(xiàn)一個新的數(shù)據(jù)庫，也就是今天的主角——下一代開源 NewSQL 數(shù)據(jù)庫 TiDB 。

當然了，創(chuàng)造并不意味著開始，它需要面臨的是無限的投入和無限的博弈來適應互聯(lián)網(wǎng)的競爭和審視，真正做到讓開發(fā)者和企業(yè)受益，才是真正的開始。

TiDB在整體架構(gòu)基本是參考 Google Spanner 和 F1 的設計，上分兩層為 TiDB 和 TiKV 。 TiDB 對應的是 Google F1，是一層無狀態(tài)的 SQL Layer ，兼容絕大多數(shù) MySQL 語法，對外暴露 MySQL 網(wǎng)絡協(xié)議，負責解析用戶的 SQL 語句，生成分布式的 Query Plan，翻譯成底層 Key Value 操作發(fā)送給 TiKV ， TiKV 是真正的存儲數(shù)據(jù)的地方，對應的是 Google Spanner ，是一個分布式 Key Value 數(shù)據(jù)庫，支持彈性水平擴展，自動的災難恢復和故障轉(zhuǎn)移（高可用），以及 ACID 跨行事務。值得一提的是 TiKV 并不像 HBase 或者 BigTable 那樣依賴底層的分布式文件系統(tǒng)，在性能和靈活性上能更好，這個對于在線業(yè)務來說是非常重要。

▲ TiDB 整體架構(gòu)

這群理想很豐沛，這不被骨感現(xiàn)實所惑的人。在 TiDB 研發(fā)語言的選擇過程中，放棄了 Java 而采用 Go 。

TiDB整個項目分為兩層，TiDB 作為 SQL 層，采用 Go 語言開發(fā)， TiKV 作為下邊的分布式存儲引擎，采用 Rust 語言開發(fā)。在架構(gòu)上確實類似 FoundationDB，也是基于兩層的結(jié)構(gòu)。 FoundationDB 的 SQL Layer 采用 Java ，底層是 C ，不過在去年，被 Apple 收購了。

在選擇編程語言并沒有融入太多的個人喜好偏向， SQL 層選擇 Go 相對 Java 來說：

第一是他們團隊的背景使用 Go 的開發(fā)效率更高，而且性能尚可，尤其對于高并發(fā)程序而言，可以使用 goroutine / channel 等工具用更少的代碼寫出正確的程序；

第二是在標準庫中很多包對網(wǎng)絡程序開發(fā)非常友好，這個對于一個分布式系統(tǒng)來說非常重要；

第三是在存儲引擎底層對于性能要求很高，Go 畢竟是一個帶有 GC 和 Runtime 的語言，在 TiKV 層可以選擇的方案并不多，過去基本只有 C 或 C ，不過近兩年隨著 Rust 語言的成熟，又在經(jīng)過長時間的思考和大量實驗，最終他們團隊選擇了 Rust。

Rust 這門靜態(tài)語言的定位是取代 C ，最大的特點是通過很多語法的限制來避免開發(fā)者寫出內(nèi)存泄露和 data race 的程序，將很多問題解決在編譯期，使得運行時不需要花費額外的代價進行 GC 之類的事情，保證高性能。所以，寫出安全的程序，這正是 C 程序的很大的一個痛點。

雖然在 C 11 中有了很多的改進，但是由于歷史包袱太重或者第三方包庫開發(fā)者的水平參差不齊。但是重要的原因不因為別的，正是他們的背后并不是一個 C 背景很深的團隊，所以最后放棄了 C 11 而選擇了 Rust 。

Rust 不僅有安全和高性能的特點，同時語法更加現(xiàn)代，開發(fā)效率更高，另外擁有非常完善的包管理機制（Cargo），使得在能寫出非常高性能且安全的程序同時，開發(fā)效率比起 Go并沒有下降太多，對于目前來說是一個非常正確的選擇。作為 Rust 社區(qū)內(nèi)全球最大的開源項目之一，也得到了 Rust 語言官方團隊的很大支持，黃東旭表示，包括一些他們需要的第三方庫，Rust team 都會放在很高優(yōu)先級上去開發(fā)或者在社區(qū)里推進。另外 Rust 早已發(fā)布 1.0，語法也早已穩(wěn)定，是一個非常有前途的系統(tǒng)編程語言。

輪番在Google中刷出了存在感后，還一直在沒有盡頭的草原上奔跑，黃東旭認為只有聚焦，專注，才能擺脫掉令人迷惑的干擾。在不斷的探索后，終于尋找到了實現(xiàn)事務模型的方式。

TiDB 的事務模型通過參考了 Google 的 Percolator。該論文發(fā)表于 2010 年，是描述 Google 在 BigTable 上的構(gòu)建 ACID 跨行事務框架用于保證索引更新的一致性。算法的核心思想是兩階段提交，但是傳統(tǒng)的分布式兩階段提交的問題是單點的事務管理器沒法擴展，會成為整個系統(tǒng)的瓶頸，Percolator 使用了一個兩級鎖的機制實現(xiàn)了去中心化的事務管理器，使得整個系統(tǒng)的可擴展性大大提升。

▲ Goolge Percolator內(nèi)部實現(xiàn)

TiDB 將這個模型應用在底層的存儲引擎中，并做了很多工程上的優(yōu)化，黃東旭舉例說，通過 batch 和 pipeline 等手段大大提升了授時服務的吞吐，使用 Raft RockDB 來替代原文的 BigTable 性能更好，另外采用樂觀事務機制追求更高的吞吐，不過是從算法層面，是 Percolator 實現(xiàn)。

TiDB 對比 NOSQL

TiDB 對于這些 NoSQL 來說，最大的特點是編程接口是 SQL，SQL對于開發(fā)者而言是更加靈活的操作數(shù)據(jù)庫的方式，且對 MySQL 有著極高的兼容性—原業(yè)務的 MySQL切換到 TiDB 幾乎一行代碼都不用修改就可以完成。TiDB 在支持 SQL 的同時有沒有喪失 HBase 這樣的系統(tǒng)的彈性擴展能力，業(yè)務層不需要再去關心數(shù)據(jù)庫的容量，不用去考慮分庫分表，也不用像過去那樣投入很大的運維力量，擴容只需簡單加機器就好，存儲節(jié)點故障對業(yè)務透明，而且數(shù)據(jù)庫本身具有自我修復的能力，保證數(shù)據(jù)不會丟失。

對于 MongoDB 也是一樣，更重要的是不需要改變用戶已有的習慣和程序，而且為了定義未來的云上的數(shù)據(jù)庫形態(tài)，TiDB 設計的目標是單集群需要可以 Scale 到 1000 以上物理節(jié)點的規(guī)模，支持 P 級別容量，萬億以上的行的結(jié)構(gòu)化數(shù)據(jù)存儲，在這個前提約束下的設計和技術選型和 MongoDB 很不一樣，在大數(shù)據(jù)量的情況下 TiDB 的表現(xiàn)更穩(wěn)定，擴展更加平滑。

TiDB 的 SQL 優(yōu)化器是黃東旭他們從頭開始實現(xiàn)的一個面向分布式存儲設計的查詢優(yōu)化器，使用了很多學術界很新的查詢優(yōu)化技術和分布式計算框架的思想，保證 MySQL 兼容性的前提下比 MySQL 在復雜查詢下表現(xiàn)要好得多。

傳統(tǒng)數(shù)據(jù)庫的痛點解決

任何企業(yè)，如果使用傳統(tǒng)的單機關系型數(shù)據(jù)庫，在數(shù)據(jù)量持續(xù)增長下，或者對業(yè)務的可用性有嚴格要求的情況下，可能都會面臨單點故障和單點容量限制的問題，這個問題最近幾年在互聯(lián)網(wǎng)行業(yè)尤其突出，目前來說除了上面提到的分庫分表和中間件也并沒有其他的方案解決，幾乎苦不堪言。

TiDB 基于更先進的 Raft 算法來實現(xiàn)了存儲層的水平擴展基礎上加上了分布式事務，構(gòu)建了完整的 SQL 查詢層，在保證不喪失 ACID 事務的前提下，支持 JOIN ，子查詢等復雜查詢，另外對外暴露 MySQL 接口，讓用戶幾乎在無侵入性的前提下，解決大量結(jié)構(gòu)化數(shù)據(jù)的存儲問題?？紤]到傳統(tǒng)行業(yè)和互聯(lián)網(wǎng)行業(yè)的代差大概在 3 年左右，另外這個時間在不斷的縮短，最近隨著 TiDB 趨于穩(wěn)定，越來越多的互聯(lián)網(wǎng)在使用 TiDB ，相信未來會成為擴展數(shù)據(jù)庫的一個新的主流選擇。

TiDB 的應用場景

應用場景是典型的 OLTP 場景，范圍很大，覆蓋到任何企業(yè)。在關系型數(shù)據(jù)庫上遇到擴展性問題、同時需要強一致事務、需要實現(xiàn)多數(shù)據(jù)中心強一致和高可用，都是 TiDB 的典型用戶。TiDB 對 MySQL 的支持很完善，基于目前使用著 MySQL 的用戶或企業(yè)，希望尋求更優(yōu)雅的水平擴展方案，都是非常不錯的選擇。

其實目前在統(tǒng)計大多數(shù)線上生產(chǎn)環(huán)境中使用的用戶基本都是互聯(lián)網(wǎng)場景，從 MySQL 過來。TiDB 目前暫時不支持存儲過程和視圖，所以前提條件是已有業(yè)務中沒有這類操作。

在項目開始第一天就確定了 TiDB 最大兼容 MySQL ，黃東旭坦言， MySQL 是一個單機的數(shù)據(jù)庫，而且查詢優(yōu)化器是針對單機場景設計，基于這架構(gòu)上去做一個分布式數(shù)據(jù)庫的難度很大。

而此時，他們決定選擇一條更徹底的道路，就是重寫整個 SQL Parser 和查詢優(yōu)化引擎。雖然看上去幾乎是不可能完成的事情，但是實際做下來他們覺得在一個更良好設計和復雜度控制下，反而是一條更輕松的路。而選擇完全的 MySQL 兼容這個事情帶來的好處不僅限于對用戶的友好度，更重要的是能從 MySQL 社區(qū)吸取大量的測試。這對于一個數(shù)據(jù)庫產(chǎn)品來說，做出來并不難，如何證明你是對的，這才是更重要的！黃東旭他們不斷的從 MySQL 社區(qū)收集了千萬級的測試用例來保證每個模塊的正確性，和對 MySQL 行為的一致性。

TiDB 項目開源的程度

TiDB 項目是100% 開源，致力于做一個具有國際水準的頂級開源項目，從 Github repo 本身其實很難看出來這是一個背后是國人主導的開源項目，所有的提交記錄，所有的協(xié)作，Roadmap ，Issue tracking ，中英文文檔，以及代碼審核都是開源的。

而項目已經(jīng)迭代到 Beta 4 版本，從線上用戶的反饋，主要的功能已經(jīng)基本完善穩(wěn)定。黃東旭表示，接下來重要的工作會是持續(xù)的性能優(yōu)化和繼續(xù)提升穩(wěn)定性，還有在更大容量，更惡劣嚴苛的集群環(huán)境下持續(xù)測試。當然周邊工具，部署教程，更多的設計文檔也是在持續(xù)的豐富中。

TiDB 的未來

從更長遠的角度，一切東西都會運行在云端，數(shù)據(jù)庫也不例外。在海量數(shù)據(jù)，大規(guī)模集群的前提下，關系型數(shù)據(jù)庫的設計和理論還有很多東西需要探索，這種集群規(guī)模之下，一切依賴人工的運維都將會失效，因為人是沒法 scale ，數(shù)據(jù)庫需要具有自我修復和自我擴展的能力，也只有這樣，才能更好的利用集群的計算資源，這也為什么 TiDB 團隊對自己的定位是要做 Cloud-Native 的數(shù)據(jù)庫，他們在為未來做很多基礎性的研究和準備，包含對 Kubernetes 和分布式數(shù)據(jù)庫的結(jié)合上也做了很多探索性的工作。

黃東旭希望 TiDB 定義下一代關系型數(shù)據(jù)庫，未來開發(fā)者能夠真正專注自己的業(yè)務，不用在關心數(shù)據(jù)庫有多大，并發(fā)可能會有多高，什么時候需要擴容一下，選哪個 sharding key 好等這些問題都應該被隱藏在一個很簡單的 SQL interface 之下。

TiDB 有了非常不錯的開頭，他們做到了，在下一代關系型數(shù)據(jù)庫里面，每個人都能感受到這種技術所帶來生產(chǎn)力的美好！

開源項目地址：https://github.com/pingcap/tidb

PS:黃東旭將在11月26號出席WOT2016大數(shù)據(jù)技術峰會，屆時在NoSQL實踐技術專場分享《NewSQL in action: Patterns and Tools》內(nèi)容，敬請關注。

WOT2016大數(shù)據(jù)技術峰會官網(wǎng)：http://wot.51cto.com/