按:此為客座博文系列。投稿人吳朱華曾在IBM中國研究院從事與云計算相關(guān)的研究,現(xiàn)在正致力于研究云計算技術(shù)。
本系列文章基于公開資料對Google App Engine的實現(xiàn)機制這個話題進行深度探討。在切入Google App Engine之前,首先會對Google的核心技術(shù)和其整體架構(gòu)進行分析,以幫助大家之后更好地理解Google App Engine的實現(xiàn)。 本篇將主要介紹Google的十個核心技術(shù),而且可以分為四大類:
分布式基礎(chǔ)設(shè)施GFS 由于搜索引擎需要處理海量的數(shù)據(jù),所以Google的兩位創(chuàng)始人Larry Page和Sergey Brin在創(chuàng)業(yè)初期設(shè)計一套名為"BigFiles"的文件系統(tǒng),而GFS(全稱為"Google File System")這套分布式文件系統(tǒng)則是"BigFiles"的延續(xù)。 首先,介紹它的架構(gòu),GFS主要分為兩類節(jié)點:
下圖就是GFS的架構(gòu)圖: 圖1. GFS的架構(gòu)圖(參片[15]) 接著,在設(shè)計上,GFS主要有八個特點:
現(xiàn)在Google內(nèi)部至少運行著200多個GFS集群,最大的集群有幾千臺服務(wù)器,并且服務(wù)于多個Google服務(wù),比如Google搜索。但由于 GFS主要為搜索而設(shè)計,所以不是很適合新的一些Google產(chǎn)品,比YouTube、Gmail和更強調(diào)大規(guī)模索引和實時性的Caffeine搜索引擎 等,所以Google已經(jīng)在開發(fā)下一代GFS,代號為"Colossus",并且在設(shè)計方面有許多不同,比如:支持分布式Master節(jié)點來提升高可用性 并能支撐更多文件,Chunk節(jié)點能支持1MB大小的chunk以支撐低延遲應(yīng)用的需要。 Chubby 簡單的來說,Chubby 屬于分布式鎖服務(wù),通過 Chubby,一個分布式系統(tǒng)中的上千個client都能夠?qū)τ谀稠椯Y源進行"加鎖"或者"解鎖",常用于BigTable的協(xié)作工作,在實現(xiàn)方面是通過 對文件的創(chuàng)建操作來實現(xiàn)"加鎖",并基于著名科學(xué)家Leslie Lamport的Paxos算法。 Protocol Buffer Protocol Buffer,是Google內(nèi)部使用一種語言中立、平臺中立和可擴展的序列化結(jié)構(gòu)化數(shù)據(jù)的方式,并提供 Java、C++ 和 Python 這三種語言的實現(xiàn),每一種實現(xiàn)都包含了相應(yīng)語言的編譯器以及庫文件,而且它是一種二進制的格式,所以其速度是使用 XML 進行數(shù)據(jù)交換的10倍左右。它主要用于兩個方面:其一是RPC通信,它可用于分布式應(yīng)用之間或者異構(gòu)環(huán)境下的通信。其二是數(shù)據(jù)存儲方面,因為它自描述,而 且壓縮很方便,所以可用于對數(shù)據(jù)進行持久化,比如存儲日志信息,并可被Map Reduce程序處理。與Protocol Buffer比較類似的產(chǎn)品還有Facebook的 Thrift ,而且 Facebook 號稱Thrift在速度上還有一定的優(yōu)勢。 分布式大規(guī)模數(shù)據(jù)處理MapReduce 首先,在Google數(shù)據(jù)中心會有大規(guī)模數(shù)據(jù)需要處理,比如被網(wǎng)絡(luò)爬蟲(Web Crawler)抓取的大量網(wǎng)頁等。由于這些數(shù)據(jù)很多都是PB級別,導(dǎo)致處理工作不得不盡可能的并行化,而Google為了解決這個問題,引入了 MapReduce這個編程模型,MapReduce是源自函數(shù)式語言,主要通過"Map(映射)"和"Reduce(化簡)"這兩個步驟來并行處理大規(guī) 模的數(shù)據(jù)集。Map會先對由很多獨立元素組成的邏輯列表中的每一個元素進行指定的操作,且原始列表不會被更改,會創(chuàng)建多個新的列表來保存Map的處理結(jié) 果。也就意味著,Map操作是高度并行的。當Map工作完成之后,系統(tǒng)會先對新生成的多個列表進行清理(Shuffle)和排序,之后會這些新創(chuàng)建的列表 進行Reduce操作,也就是對一個列表中的元素根據(jù)Key值進行適當?shù)暮喜ⅰ?/p> 下圖為MapReduce的運行機制: 圖2. MapReduce的運行機制(參[19]) 接下來,將根據(jù)上圖來舉一個MapReduce的例子:比如,通過搜索Spider將海量的Web頁面抓取到本地的GFS集群中,然后Index系 統(tǒng)將會對這個GFS集群中多個數(shù)據(jù)Chunk進行平行的Map處理,生成多個Key為URL,value為html頁面的鍵值對(Key-Value Map),接著系統(tǒng)會對這些剛生成的鍵值對進行Shuffle(清理),之后系統(tǒng)會通過Reduce操作來根據(jù)相同的key值(也就是URL)合并這些鍵 值對。 最后,通過MapReduce這么簡單的編程模型,不僅能用于處理大規(guī)模數(shù)據(jù),而且能將很多繁瑣的細節(jié)隱藏起來,比如自動并行化,負載均衡和機器宕 機處理等,這樣將極大地簡化程序員的開發(fā)工作。MapReduce可用于包括"分布grep,分布排序,web訪問日志分析,反向索引構(gòu)建,文檔聚類,機 器學(xué)習(xí),基于統(tǒng)計的機器翻譯,生成Google的整個搜索的索引"等大規(guī)模數(shù)據(jù)處理工作。Yahoo也推出MapReduce的開源版本Hadoop,而 且Hadoop在業(yè)界也已經(jīng)被大規(guī)模使用。 Sawzall Sawzall可以被認為是構(gòu)建在MapReduce之上的采用類似Java語法的DSL(Domain-Specific Language),也可以認為它是分布式的AWK。它主要用于對大規(guī)模分布式數(shù)據(jù)進行篩選和聚合等高級數(shù)據(jù)處理操作,在實現(xiàn)方面,是通過解釋器將其轉(zhuǎn)化 為相對應(yīng)的MapReduce任務(wù)。除了Google的Sawzall之外,yahoo推出了相似的Pig語言,但其語法類似于SQL。 分布式數(shù)據(jù)庫技術(shù)BigTable 由于在Google的數(shù)據(jù)中心存儲PB級以上的非關(guān)系型數(shù)據(jù)時候,比如網(wǎng)頁和地理數(shù)據(jù)等,為了更好地存儲和利用這些數(shù)據(jù),Google開發(fā)了一套數(shù) 據(jù)庫系統(tǒng),名為"BigTable"。BigTable不是一個關(guān)系型的數(shù)據(jù)庫,它也不支持關(guān)聯(lián)(Join)等高級SQL操作,取而代之的是多級映射的數(shù) 據(jù)結(jié)構(gòu),并是一種面向大規(guī)模處理、容錯性強的自我管理系統(tǒng),擁有TB級的內(nèi)存和PB級的存儲能力,使用結(jié)構(gòu)化的文件來存儲數(shù)據(jù),并每秒可以處理數(shù)百萬的讀 寫操作。 什么是多級映射的數(shù)據(jù)結(jié)構(gòu)呢?就是一個稀疏的,多維的,排序的Map,每個Cell由行關(guān)鍵字,列關(guān)鍵字和時間戳三維定位.Cell的內(nèi)容是一個不 解釋的字符串,比如下表存儲每個網(wǎng)站的內(nèi)容與被其他網(wǎng)站的反向連接的文本。 反向的URL com.cnn.www是這行的關(guān)鍵字;contents列存儲網(wǎng)頁內(nèi)容,每個內(nèi)容有一個時間戳,因為有兩個反向連接,所以archor的Column Family有兩列:anchor: cnnsi.com和anchhor:my.look.ca。Column Family這個概念,使得表可以輕松地橫向擴展。下面是它具體的數(shù)據(jù)模型圖: 圖3. BigTable數(shù)據(jù)模型圖(參[4]) 在結(jié)構(gòu)上,首先,BigTable基于GFS分布式文件系統(tǒng)和Chubby分布式鎖服務(wù)。其次BigTable也分為兩部分:其一是Master節(jié) 點,用來處理元數(shù)據(jù)相關(guān)的操作并支持負載均衡。其二是tablet節(jié)點,主要用于存儲數(shù)據(jù)庫的分片tablet,并提供相應(yīng)的數(shù)據(jù)訪問,同時Tablet 是基于名為SSTable的格式,對壓縮有很好的支持。 圖4. BigTable架構(gòu)圖(參[15]) BigTable正在為Google六十多種產(chǎn)品和項目提供存儲和獲取結(jié)構(gòu)化數(shù)據(jù)的支撐平臺,其中包括有Google Print、 Orkut、Google Maps、Google Earth和Blogger等,而且Google至少運行著500個BigTable集群。 隨著Google內(nèi)部服務(wù)對需求的不斷提高和技術(shù)的不斷地發(fā)展,導(dǎo)致原先的BigTable已經(jīng)無法滿足用戶的需求,而Google也正在開發(fā)下一代BigTable,名為"Spanner(扳手)",它主要有下面這些BigTable所無法支持的特性:
數(shù)據(jù)庫Sharding Sharding就是分片的意思,雖然非關(guān)系型數(shù)據(jù)庫比如BigTable在Google的世界中占有非常重要的地位,但是面對傳統(tǒng)OLTP應(yīng)用, 比如廣告系統(tǒng),Google還是采用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫技術(shù),也就是MySQL,同時由于Google所需要面對流量非常巨大,所以Google在數(shù)據(jù)庫 層采用了分片(Sharding)的水平擴展(Scale Out)解決方案,分片是在傳統(tǒng)垂直擴展(Scale Up)的分區(qū)模式上的一種提升,主要通過時間,范圍和面向服務(wù)等方式來將一個大型的數(shù)據(jù)庫分成多片,并且這些數(shù)據(jù)片可以跨越多個數(shù)據(jù)庫和服務(wù)器來實現(xiàn)水平 擴展。 Google整套數(shù)據(jù)庫分片技術(shù)主要有下面這些優(yōu)點:
在實現(xiàn)方面,主要可分為兩塊:其一是在MySQL InnoDB基礎(chǔ)上添加了數(shù)據(jù)庫分片的技術(shù)。其二是在ORM層的Hibernate的基礎(chǔ)上也添加了相關(guān)的分片技術(shù),并支持虛擬分片(Virtual Shard)來便于開發(fā)和管理。同時Google也已經(jīng)將這兩方面的代碼提交給相關(guān)組織。 數(shù)據(jù)中心優(yōu)化技術(shù)數(shù)據(jù)中心高溫化 大中型數(shù)據(jù)中心的PUE(Power Usage Effectiveness)普遍在2左右,也就是在服務(wù)器等計算設(shè)備上耗1度電,在空調(diào)等輔助設(shè)備上也要消耗一度電。對一些非常出色的數(shù)據(jù)中心,最多也 就能達到1.7,但是Google通過一些有效的設(shè)計使部分數(shù)據(jù)中心到達了業(yè)界領(lǐng)先的1.2,在這些設(shè)計當中,其中最有特色的莫過于數(shù)據(jù)中心高溫化,也就 是讓數(shù)據(jù)中心內(nèi)的計算設(shè)備運行在偏高的溫度下,Google的能源方面的總監(jiān)Erik Teetzel在談到這點的時候說:"普通的數(shù)據(jù)中心在70華氏度(21攝氏度)下面工作,而我們則推薦80華氏度(27攝氏度)"。但是在提高數(shù)據(jù)中心 的溫度方面會有兩個常見的限制條件:其一是服務(wù)器設(shè)備的崩潰點,其二是精確的溫度控制。如果做好這兩點,數(shù)據(jù)中心就能夠在高溫下工作,因為假設(shè)數(shù)據(jù)中心的 管理員能對數(shù)據(jù)中心的溫度進行正負1/2度的調(diào)節(jié),這將使服務(wù)器設(shè)備能在崩潰點5度之內(nèi)工作,而不是常見的20度之內(nèi),這樣既經(jīng)濟,又安全。還有,業(yè)界傳 言Intel為Google提供抗高溫設(shè)計的定制芯片,但云計算界的頂級專家James Hamilton認為不太可能,因為雖然處理器也非常懼怕熱量,但是與內(nèi)存和硬盤相比還是強很多,所以處理器在抗高溫設(shè)計中并不是一個核心因素。同時他也 非常支持使數(shù)據(jù)中心高溫化這個想法,而且期望將來數(shù)據(jù)中心甚至能運行在40攝氏度下,這樣不僅能節(jié)省空調(diào)方面的成本,而且對環(huán)境也很有利。 12V電池 由于傳統(tǒng)的UPS在資源方面比較浪費,所以Google在這方面另辟蹊徑,采用了給每臺服務(wù)器配一個專用的12V電池的做法來替換了常用的UPS, 如果主電源系統(tǒng)出現(xiàn)故障,將由該電池負責(zé)對服務(wù)器供電。雖然大型UPS可以達到92%到95%的效率,但是比起內(nèi)置電池的99.99%而言是非常捉襟見肘 的,而且由于能量守恒的原因,導(dǎo)致那么未被UPS充分利用的電力會被轉(zhuǎn)化成熱能,這將導(dǎo)致用于空調(diào)的能耗相應(yīng)地攀升,從而走入一個惡性循環(huán)。同時在電源方 面也有類似的"神來之筆",普通的服務(wù)器電源會同時提供5V和12V的直流電。但是Google設(shè)計的服務(wù)器電源只輸出12V直流電,必要的轉(zhuǎn)換在主板上 進行,雖然這種設(shè)計會使主板的成本增加1美元到2美元,但是它不僅能使電源能在接近其峰值容量的情況下運行,而且在銅線上傳輸電流時效率更高。 服務(wù)器整合 談到虛擬化的殺手锏時,第一個讓人想到肯定是服務(wù)器整合,而且普遍能實現(xiàn)1:8的整合率來降低各方面的成本。有趣的是,Google在硬件方面也引 入類似服務(wù)器整合的想法,它的做法是在一個機箱大小的空間內(nèi)放置兩臺服務(wù)器,這些做的好處有很多,首先,減小了占地面積。其次,通過讓兩臺服務(wù)器共享諸如 電源等設(shè)備,來降低設(shè)備和能源等方面的投入。 本篇結(jié)束,下篇將猜想一下Google整體架構(gòu)。 |
|