2013年4月的QCon北京會場上,阿里云計算產(chǎn)品總監(jiān)倪浩帶來了主題為《阿里云計算的實踐》的分享。在分享中,倪浩介紹了阿里云的服務(wù)體系,技術(shù)路線的選擇,著重介紹了彈性計算和存儲技術(shù)的演進(jìn),并且在最后介紹了使用阿里云服務(wù)的一些最佳實踐。 InfoQ編輯從本次分享中獲取到一些有意思的信息如下: 云計算對客戶最大的價值是什么? 成本不是關(guān)鍵。事實上,使用云計算有時候反而要比較貴,但是盯著省錢不如盯著賺錢。靈活性(可快速變化)和簡單性(易于操作)使得云計算能夠更好的為客戶交付更多的價值,這才是云計算最大的價值。 為什么阿里云(包括其他大型公共云平臺)要選擇自己從頭開發(fā)整個底層軟件,而沒有在現(xiàn)成的OpenStack、CloudStack、Eucalyptus、Hadoop、MongoDB等開源軟件的基礎(chǔ)上構(gòu)建? 對于阿里云這樣規(guī)模的業(yè)務(wù)而言,如果采用各種開源技術(shù)拼湊起來的方案,會缺乏主線的控制力,而且拼湊的過程一點(diǎn)都不簡單。同時,各種軟件幾乎不可能共享集群的資源。 阿里云存儲在發(fā)展過程中遭遇過哪些坑?是如何解決的? 云存儲系統(tǒng)的業(yè)務(wù)特點(diǎn)在于大量的隨機(jī)IO,擦寫十分頻繁。 阿里云的存儲系統(tǒng),到目前經(jīng)歷過三個階段。 第一個階段是最原始的:所有的VM訪問基于RAID的共享存儲。RAID本身并不是為了這種大量隨機(jī)讀寫的情景設(shè)計的,同時因為RAID的數(shù)據(jù)都在本地,一旦宕機(jī)是無法遷移的。 第二個階段采用了異步同步的思路:VM過來的運(yùn)行時讀寫先進(jìn)入本地存儲,同時以扇區(qū)為單位,異步向KVEngine做同步,KVEngine掛在(append)阿里的分布式文件存儲系統(tǒng)(盤古)上。這樣做的好處是可以取巧的利用(不支持隨機(jī)讀寫的)飛天盤古的數(shù)據(jù)冗余,萬一本地宕機(jī)可以通過KVEngine中的數(shù)據(jù)在另一臺機(jī)器上恢復(fù);但是,KVEngine異步同步數(shù)據(jù)仍然有丟失的可能。 第三個階段是:支持隨機(jī)IO的分布式存儲系統(tǒng)。跟之前的append-only不同,這是基于盤古實現(xiàn)的Random Access File(RAF)。其實現(xiàn)的思路是:
整個方案最大的挑戰(zhàn)在于:如何保持?jǐn)?shù)據(jù)一致性。這是所有分布式存儲系統(tǒng)面臨的最大問題,從理論到實現(xiàn)都非常復(fù)雜。 阿里云的服務(wù)類型很多,如何選擇才能效果最優(yōu)? 優(yōu)化云服務(wù)用例的根本原則在于:知道每個服務(wù)都被設(shè)計好做一件事情。 因此,每個服務(wù)都有自己的優(yōu)勢,也有自己的陷阱。 比如,阿里云目前提供了不同的存儲服務(wù):
未來還會提供Cache/Queue/CDN等。當(dāng)然,云服務(wù)器(ECS)本身也帶有存儲。
網(wǎng)絡(luò)方面,負(fù)載均衡(SLB)提供HTTP和TCP,分別在不同的層面,需要考慮好自己的業(yè)務(wù)適合在哪一層做。同時,按月購買的服務(wù)器的帶寬限制是完全的上行帶寬(從服務(wù)器流出的帶寬),下行帶寬(流入服務(wù)器的帶寬)是千兆規(guī)格,相當(dāng)于沒有限制。 InfoQ編輯就一些讀者感興趣的問題跟倪浩進(jìn)行了詢問,他的回答如下: InfoQ:阿里云部分基于XEN,那么在XEN被Citrix 收購后,如果社區(qū)活躍度下降,后續(xù)更新乏力,那么將來如何解決已經(jīng)采用XEN運(yùn)行的虛擬服務(wù)器這個問題?
InfoQ:如果阿里云改造后采用了公網(wǎng)地址沉降的辦法,即運(yùn)行虛擬服務(wù)器宿主機(jī)直接連接到互聯(lián)網(wǎng)上的話,針對很多中小企業(yè)用戶對如何設(shè)置防火墻以及應(yīng)保護(hù)哪些端口還不是熟悉的情況以及黑客的掃描性攻擊狀況,如何應(yīng)對?
InfoQ:阿里云如何解決鏡像遷出的問題,即用戶創(chuàng)建了云服務(wù)器后,如果用戶長成中大企業(yè)有可能希望將云服務(wù)器移到企業(yè)內(nèi)部IT系統(tǒng)上運(yùn)行,阿里云的鏡像格式可以允許用戶隨意在企業(yè)內(nèi)部的Linux或Windows宿主機(jī)上運(yùn)行嗎?
InfoQ:阿里云存儲采用KVEngine大概是什么時候?采用RAF大概又是在什么時候?對用戶來說,在2013年感受到的I/O相比之前幾年,能有多大的提升?
InfoQ:對于RAF的數(shù)據(jù)一致性實現(xiàn),能否簡單的介紹一下其理論?有哪些參考資料可以推薦么?
InfoQ:您在RAF的實現(xiàn)思路中提到幾個需要注意的問題,如流控、復(fù)制風(fēng)暴等,這是怎樣的情況,能簡單說明一下么?
InfoQ:阿里云是否會允許第三方合作伙伴在平臺上提供類似云盾、云監(jiān)控的業(yè)務(wù)?
|
|