1.數(shù)據(jù)中心容災(zāi)備份解決方案
隨著社會(huì)的發(fā)展和科技的進(jìn)步,政府日常工作越來越依賴于數(shù)據(jù)處理來進(jìn)行,政務(wù)系統(tǒng)的連續(xù)性依賴于數(shù)據(jù)中心系統(tǒng)的穩(wěn)定運(yùn)行。然而,災(zāi)難就像灰塵一樣伏擊在運(yùn)營(yíng)環(huán)境周圍,政務(wù)系統(tǒng)的數(shù)據(jù)中心可能正在一個(gè)充滿風(fēng)險(xiǎn)和威脅的環(huán)境下運(yùn)行。如果不能對(duì)這些風(fēng)險(xiǎn)采取有效治理,一旦數(shù)據(jù)由于某種原因丟失,就很有可能對(duì)政府的日常工作造成嚴(yán)重的影響。如果核心數(shù)據(jù)丟失,將會(huì)使得某些核心功能陷入癱瘓,造成不可估量的損失。因此,保證政務(wù)的連續(xù)性和數(shù)據(jù)的高可靠性和可用性,已經(jīng)成為政府部門在數(shù)據(jù)中心建設(shè)中,必須要考慮的問題。
1.1災(zāi)備解決方案原則
首先,在制定容災(zāi)系統(tǒng)方案的過程中要考慮的就是容災(zāi)系統(tǒng)建設(shè)對(duì)原有業(yè)務(wù)系統(tǒng)帶來的影響。比如,采用數(shù)據(jù)復(fù)制技術(shù)對(duì)系統(tǒng)I/O帶來的延遲,應(yīng)用數(shù)據(jù)同步對(duì)日常業(yè)務(wù)處理系統(tǒng)帶來的壓力等。因此,企業(yè)要通過周密的測(cè)試和分析來規(guī)避容災(zāi)系統(tǒng)建設(shè)時(shí)帶來的這些風(fēng)險(xiǎn),以保證業(yè)務(wù)系統(tǒng)不會(huì)因容災(zāi)系統(tǒng)的建設(shè)而出現(xiàn)在處理性能上下降的問題。
第二,數(shù)據(jù)狀態(tài)要保持同步。為保證在災(zāi)難發(fā)生時(shí),業(yè)務(wù)可以成功地切換到備份中心,就必須保證容災(zāi)系統(tǒng)數(shù)據(jù)同步機(jī)制的可靠性。因此,建立可靠的數(shù)據(jù)同步校驗(yàn)機(jī)制是必須的; 同時(shí),還要考慮建立定時(shí)的、自動(dòng)的數(shù)據(jù)同步核查對(duì)比機(jī)制,以檢驗(yàn)兩個(gè)中心數(shù)據(jù)的一致性,這是數(shù)據(jù)容災(zāi)工作中非常重要的一部分。
第三,容災(zāi)系統(tǒng)的日常維護(hù)工作要盡可能輕,并能承擔(dān)部分業(yè)務(wù)處理和測(cè)試的工作。容災(zāi)系統(tǒng)的維護(hù)和管理是容災(zāi)切換成功的重要保證,在系統(tǒng)建設(shè)中,就必須要考慮系統(tǒng)的維護(hù)管理流程。生產(chǎn)中心任何業(yè)務(wù)處理過程的改變都必須完整地復(fù)制到備份中心; 所有新業(yè)務(wù)系統(tǒng)上線時(shí),必須通知備份中心,并在備份中心配置好數(shù)據(jù)同步機(jī)制; 對(duì)原程序的改動(dòng)也必須保證兩個(gè)中心同時(shí)上線。
第四,系統(tǒng)恢復(fù)時(shí)間要盡可能短。容災(zāi)系統(tǒng)主要是為了實(shí)現(xiàn)在主中心系統(tǒng)發(fā)生災(zāi)難時(shí),可以在規(guī)定時(shí)間切換到備份中心,保證數(shù)據(jù)不會(huì)丟失,并且繼續(xù)向用戶提供服務(wù)。但往往在災(zāi)難發(fā)生時(shí),主要技術(shù)人員不能及時(shí)到達(dá)現(xiàn)場(chǎng),為了順利實(shí)現(xiàn)系統(tǒng)間的切換,應(yīng)該讓系統(tǒng)切換操作盡可能地簡(jiǎn)單; 并建立固定化的、標(biāo)準(zhǔn)化的切換流程,要求維護(hù)人員在切換演習(xí)時(shí)嚴(yán)格按照流程的指導(dǎo)步驟進(jìn)行操作。
第五,可實(shí)現(xiàn)部分業(yè)務(wù)子系統(tǒng)的切換和回切。當(dāng)人事變動(dòng)、業(yè)務(wù)變化、IT設(shè)施變化以及其他可能引起恢復(fù)規(guī)劃文檔失效的變化發(fā)生時(shí),應(yīng)及時(shí)更新各恢復(fù)規(guī)劃文檔,并在必要時(shí)啟動(dòng)模擬測(cè)試或演習(xí),確保業(yè)務(wù)連續(xù)性系統(tǒng)的工作能力。
第六,技術(shù)方案選擇要遵循成熟穩(wěn)定、高可靠性、可擴(kuò)展性、透明性的原則。目前,國(guó)際上比較成熟的容災(zāi)技術(shù)包括: SAN/NAS技術(shù)、遠(yuǎn)程鏡像技術(shù)、虛擬存儲(chǔ)、基于IP的SAN互連技術(shù)以及快照技術(shù)等。其中基于IP的SAN遠(yuǎn)程數(shù)據(jù)容災(zāi)備份技術(shù)應(yīng)用比較廣泛,其是利用基于IP的SAN的互連協(xié)議,將主數(shù)據(jù)中心SAN中的信息通過現(xiàn)有的TCP/IP網(wǎng)絡(luò),遠(yuǎn)程復(fù)制到備份中心的SAN中的。當(dāng)備份中心存儲(chǔ)的數(shù)據(jù)量過大時(shí),可利用快照技術(shù)將其備份到磁帶庫(kù)或光盤庫(kù)。這種基于IP的SAN遠(yuǎn)程容災(zāi)備份,可以跨越LAN、MAN和WAN,成本低、可擴(kuò)展性好。基于IP的互連協(xié)議主要包括FCIP、iFCP、InfiniBand、iSCSI等。
第七,構(gòu)建系統(tǒng)方案可以選擇多種技術(shù)組合方式。目前,業(yè)內(nèi)應(yīng)用較多的容災(zāi)方案是基于智能存儲(chǔ)系統(tǒng)的遠(yuǎn)程數(shù)據(jù)復(fù)制技術(shù),它是由智能存儲(chǔ)系統(tǒng)自身實(shí)現(xiàn)的數(shù)據(jù)遠(yuǎn)程復(fù)制和同步,即智能存儲(chǔ)系統(tǒng)將對(duì)該系統(tǒng)中的存儲(chǔ)器I/O操作請(qǐng)求復(fù)制到遠(yuǎn)端的存儲(chǔ)系統(tǒng)中并執(zhí)行。由于在這種方式下,數(shù)據(jù)復(fù)制軟件運(yùn)行在存儲(chǔ)系統(tǒng)內(nèi),因此較容易實(shí)現(xiàn)主中心和容災(zāi)備份中心的操作系統(tǒng)、數(shù)據(jù)庫(kù)、系統(tǒng)庫(kù)和目錄的實(shí)時(shí)拷貝及維護(hù)能力,且不會(huì)影響主中心主機(jī)系統(tǒng)的性能。如果在系統(tǒng)恢復(fù)場(chǎng)具備了實(shí)時(shí)數(shù)據(jù),那么就可以做到在災(zāi)難發(fā)生時(shí),及時(shí)開始應(yīng)用處理過程的恢復(fù)。但這種方案也有開放性差(不同廠家的存儲(chǔ)設(shè)備系統(tǒng)一般不能配合使用)、對(duì)于主、備中心之間的網(wǎng)絡(luò)條件(穩(wěn)定性、帶寬、鏈路空間距離)要求較苛刻等缺點(diǎn)。
1.2災(zāi)備解決方案設(shè)計(jì)需要考慮的因素
1.2.1 RTO和RPO
RTO(RecoveryTime Object):是指災(zāi)難發(fā)生后,從IT系統(tǒng)宕機(jī)導(dǎo)致業(yè)務(wù)停頓之刻開始,到IT系統(tǒng)恢復(fù)至可以支持各部門運(yùn)作,業(yè)務(wù)恢復(fù)運(yùn)營(yíng)之時(shí),此兩點(diǎn)之間的時(shí)間段成為RTO。RTO是反映業(yè)務(wù)恢復(fù)及時(shí)性的指標(biāo),表示業(yè)務(wù)從中斷到回復(fù)正常所需要的時(shí)間。RTO值越小,代表容災(zāi)系統(tǒng)的數(shù)據(jù)恢復(fù)能力越強(qiáng)。各種容災(zāi)解決方案的RTO有較大差別,基于光通道技術(shù)的同步數(shù)據(jù)復(fù)制,配合異地備用的業(yè)務(wù)系統(tǒng)和跨業(yè)務(wù)中心與備份中心的高可用管理,這種容災(zāi)解決方案具有最小的RTO。
RPO(Recovery Point Objective),是指從系統(tǒng)和應(yīng)用數(shù)據(jù)而言,要實(shí)現(xiàn)能夠恢復(fù)至可以支持各部門業(yè)務(wù)運(yùn)作,系統(tǒng)及生產(chǎn)數(shù)據(jù)應(yīng)恢復(fù)到怎樣的更新程度。RPO是反映恢復(fù)數(shù)據(jù)完整性的指標(biāo),在同步數(shù)據(jù)復(fù)制方式下,RPO等于數(shù)據(jù)傳輸延遲的時(shí)間;在異步數(shù)據(jù)復(fù)制下,RPO基本為異步傳輸數(shù)據(jù)排隊(duì)的時(shí)間。在實(shí)際應(yīng)用中,考慮導(dǎo)數(shù)據(jù)傳輸?shù)囊蛩?,業(yè)務(wù)數(shù)據(jù)庫(kù)與容災(zāi)備份數(shù)據(jù)庫(kù)的一致性(SCN)是不同的,RPO表示業(yè)務(wù)數(shù)據(jù)庫(kù)與容災(zāi)備份數(shù)據(jù)庫(kù)SCN的時(shí)間差。發(fā)生災(zāi)難后,啟動(dòng)容災(zāi)系統(tǒng)完成數(shù)據(jù)恢復(fù),RPO就是新恢復(fù)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)損失量。
設(shè)計(jì)容災(zāi)系統(tǒng)不能只看RTO和RPO,對(duì)于不同的業(yè)務(wù)系統(tǒng)和用戶特殊的要求,其它一些指標(biāo)有可能成為選擇容災(zāi)解決方案的主要因素。例如,某些地區(qū)為了防范一些特定自然災(zāi)害的風(fēng)險(xiǎn),要求容災(zāi)備份中心與業(yè)務(wù)中心保持足夠的距離,在這種情況下,容災(zāi)備份中心與業(yè)務(wù)中心的距離要求就是容災(zāi)系統(tǒng)的重要指標(biāo)。
1.2.2數(shù)據(jù)安全
數(shù)據(jù)的完整性,一致性是保證業(yè)務(wù)連續(xù)的關(guān)鍵。在本地,數(shù)據(jù)安全需要使用RAID技術(shù)來保證。在災(zāi)備方案的設(shè)計(jì)中,數(shù)據(jù)復(fù)制方案的設(shè)計(jì)是整個(gè)設(shè)計(jì)的基礎(chǔ)。目前業(yè)界主流的數(shù)據(jù)復(fù)制技術(shù)有:基于數(shù)據(jù)庫(kù)本身的復(fù)制技術(shù),基于操作系統(tǒng)的數(shù)據(jù)復(fù)制,基于虛擬存儲(chǔ)的復(fù)制技術(shù)和基于存儲(chǔ)的復(fù)制技術(shù)。在方案所用技術(shù)的選擇時(shí),應(yīng)當(dāng)根據(jù)客戶的預(yù)算,現(xiàn)場(chǎng)的條件,綜合來進(jìn)行考量。后續(xù)在1.6.1數(shù)據(jù)同步章節(jié),將會(huì)有這4類數(shù)據(jù)復(fù)制技術(shù)的綜合對(duì)比,可以作為選擇的參考。
1.2.3網(wǎng)絡(luò)安全
通信網(wǎng)絡(luò)是容災(zāi)系統(tǒng)的組成部分,通信線路的質(zhì)量也是容災(zāi)系統(tǒng)的性能指標(biāo)之一,其中包括網(wǎng)絡(luò)的數(shù)據(jù)傳輸帶寬、網(wǎng)絡(luò)傳輸通道的冗余和網(wǎng)絡(luò)服務(wù)商的服務(wù)水平(網(wǎng)絡(luò)年中斷率)。如果容災(zāi)系統(tǒng)使用的通信網(wǎng)絡(luò)是確定的,為了比較不同容災(zāi)解決方案,可以用單位存儲(chǔ)容量的數(shù)據(jù)庫(kù)在同一通信網(wǎng)絡(luò)上的數(shù)據(jù)完全恢復(fù)時(shí)間作為一項(xiàng)設(shè)計(jì)指標(biāo)。
1.2.4業(yè)務(wù)連續(xù)性
業(yè)務(wù)連續(xù)性是災(zāi)備方案的最終目標(biāo),是方案的價(jià)值所在。為了保證業(yè)務(wù)的連續(xù),首先需要數(shù)據(jù)的連續(xù),之前我們討論了數(shù)據(jù)安全相關(guān)的內(nèi)容。其次,在數(shù)據(jù)連續(xù)的基礎(chǔ)上,出現(xiàn)災(zāi)難時(shí),系統(tǒng)需要能夠滿足(1)網(wǎng)絡(luò)切換(2)應(yīng)用切換。以此,來保證系統(tǒng)能夠順利切換到災(zāi)備地,繼續(xù)安全運(yùn)營(yíng),最大化保證客戶利益。
1.3國(guó)標(biāo)系統(tǒng)災(zāi)備等級(jí)劃分及應(yīng)對(duì)措施
國(guó)家《信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》(GB/T 20988-2007)規(guī)定了六個(gè)級(jí)別的容災(zāi),下表分別針對(duì)每個(gè)級(jí)別給出了相應(yīng)的應(yīng)對(duì)措施。
1.4容災(zāi)技術(shù)分析
1.4.1備份方式
(1)冷備份
備份系統(tǒng)未安裝或未配置成與當(dāng)前使用的系統(tǒng)相同或相似的運(yùn)行環(huán)境, 應(yīng)用系統(tǒng)數(shù)據(jù)沒有及時(shí)裝入備份系統(tǒng)。一旦發(fā)生災(zāi)難,需安裝配置所需的運(yùn)行環(huán)境,用數(shù)據(jù)備份介質(zhì)(磁帶或光盤)恢復(fù)應(yīng)用數(shù)據(jù),手工逐筆或自動(dòng)批量追補(bǔ)孤立數(shù)據(jù),將終端用戶通過通訊線路切換到備份系統(tǒng),恢復(fù)業(yè)務(wù)運(yùn)行。優(yōu)點(diǎn):設(shè)備投資較少,節(jié)省通信費(fèi)用,通信環(huán)境要求不高。缺點(diǎn):恢復(fù)時(shí)間較長(zhǎng),一般要數(shù)天至1周,數(shù)據(jù)完整性與一致性較差。
(2)溫備份
將備份系統(tǒng)已安裝配置成與當(dāng)前使用的系統(tǒng)相同或相似的系統(tǒng)和網(wǎng)絡(luò)運(yùn)行環(huán)境,安裝了應(yīng)用系統(tǒng)業(yè)務(wù)定期備份數(shù)據(jù)。一旦發(fā)生災(zāi)難,直接使用定期備份數(shù)據(jù),手工逐筆或自動(dòng)批量追補(bǔ)孤立數(shù)據(jù)或?qū)⒔K端用戶通過通訊線路切換到備份系統(tǒng),恢復(fù)業(yè)務(wù)運(yùn)行。優(yōu)點(diǎn):設(shè)備投資較少,通信環(huán)境要求不高。缺點(diǎn):恢復(fù)時(shí)間長(zhǎng),一般要十幾個(gè)小時(shí)至數(shù)天,數(shù)據(jù)完整性與一致性較差。
(3)熱備份
備份處于聯(lián)機(jī)狀態(tài),當(dāng)前應(yīng)用系統(tǒng)通過高速通信線路將數(shù)據(jù)實(shí)時(shí)傳送到備份系統(tǒng),保持備份系統(tǒng)與當(dāng)前應(yīng)用系統(tǒng)數(shù)據(jù)的同步;也可定時(shí)在備份系統(tǒng)上恢復(fù)應(yīng)用系統(tǒng)的數(shù)據(jù)。一旦發(fā)生災(zāi)難,不用追補(bǔ)或只需追補(bǔ)很少的孤立數(shù)據(jù),備份系統(tǒng)可快速接替生產(chǎn)系統(tǒng)運(yùn)行,恢復(fù)營(yíng)業(yè)。優(yōu)點(diǎn):恢復(fù)時(shí)間短,一般幾十分鐘到數(shù)小時(shí),數(shù)據(jù)完整性與一致性最好,數(shù)據(jù)丟失可能性最小。缺點(diǎn):設(shè)備投資大,通信費(fèi)用高,通信環(huán)境要求高,平時(shí)運(yùn)行管理較復(fù)雜。
在計(jì)算機(jī)服務(wù)器備份和恢復(fù)中,冷備份服務(wù)器(cold server)是在主服務(wù)器丟失的情況下才使用的備份服務(wù)器。冷備份服務(wù)器基本上只在軟件安裝和配置的情況下打開,然后關(guān)閉直到需要時(shí)再打開。
溫備份服務(wù)器(warm server)一般都是周期性開機(jī),根據(jù)主服務(wù)器內(nèi)容進(jìn)行更新,然后關(guān)機(jī)。經(jīng)常用溫備份服務(wù)器來進(jìn)行復(fù)制和鏡像操作。
熱備份服務(wù)器(hot server)時(shí)刻處于開機(jī)狀態(tài),同主機(jī)保持同步。當(dāng)主機(jī)失靈時(shí),可以隨時(shí)啟用熱備份服務(wù)器來代替。
對(duì)于關(guān)鍵的業(yè)務(wù),Primeton建議采用同城熱備+異地?zé)醾涞姆绞竭M(jìn)行部署,對(duì)于一般性的業(yè)務(wù),建議采用同城熱備+異地溫備(應(yīng)用不啟動(dòng),數(shù)據(jù)保持異步復(fù)制)的方式進(jìn)行部署。
1.4.2數(shù)據(jù)復(fù)制技術(shù)
目前數(shù)據(jù)復(fù)制技術(shù)主要有如下表所列4種,基于紅色字體部分的要求,結(jié)合客戶的需要,Primeton推薦采用基于存儲(chǔ)或者基于應(yīng)用程序的數(shù)據(jù)復(fù)制技術(shù)來進(jìn)行數(shù)據(jù)同步。
1.4.3重復(fù)數(shù)據(jù)刪除技術(shù)
重復(fù)數(shù)據(jù)刪除技術(shù)是指將存儲(chǔ)系統(tǒng)中存在的大量?jī)?nèi)容相同的數(shù)據(jù)刪除,只保留其中一份,從而縮減存儲(chǔ)空間的技術(shù)。在云災(zāi)備中,該技術(shù)既能大幅減少災(zāi)備中心存儲(chǔ)的數(shù)據(jù)量,降低災(zāi)備中心的建設(shè)和運(yùn)維成本,又能大幅減少數(shù)據(jù)備份和恢復(fù)過程中用戶和災(zāi)備提供商間的數(shù)據(jù)傳輸量,提高備份和恢復(fù)的性能,是一項(xiàng)十分重要的技術(shù)。
隨著災(zāi)備中心的規(guī)模不斷增大,存儲(chǔ)的數(shù)據(jù)量和訪問量不斷增加,單一節(jié)點(diǎn)上的重復(fù)數(shù)據(jù)刪除方法已不能滿足性能和容量的需求。除上述基本重復(fù)數(shù)據(jù)刪除技術(shù)外,一些優(yōu)化和改進(jìn)技術(shù)對(duì)云災(zāi)備是至關(guān)重要的,包括高性能、可擴(kuò)展的、分布式的重復(fù)數(shù)據(jù)刪除技術(shù),以及為提高災(zāi)備中心數(shù)據(jù)可靠性的高可靠重復(fù)數(shù)據(jù)刪除技術(shù)。
1.4.4操作系統(tǒng)虛擬化技術(shù)?
除了數(shù)據(jù)級(jí)的災(zāi)備,還應(yīng)提供系統(tǒng)級(jí)的災(zāi)備。即在將數(shù)據(jù)復(fù)制到云端的同時(shí),也將受保護(hù)的應(yīng)用程序的狀態(tài)復(fù)制到云端,當(dāng)災(zāi)難發(fā)生時(shí)可以立即切換到云端的應(yīng)用程序運(yùn)行,保證業(yè)務(wù)連續(xù)性。系統(tǒng)級(jí)災(zāi)備是通過操作系統(tǒng)虛擬化和檢查點(diǎn)實(shí)現(xiàn)的。檢查點(diǎn)用來捕獲進(jìn)程某一時(shí)刻的運(yùn)行狀態(tài),從而實(shí)現(xiàn)進(jìn)程遷移。進(jìn)程遷移既可以是用戶應(yīng)用程序進(jìn)程到云災(zāi)備中心的遷移,也可以是云災(zāi)備中心內(nèi)部的虛擬機(jī)池間進(jìn)程遷移,以實(shí)現(xiàn)根據(jù)前端用戶的需求自動(dòng)地調(diào)節(jié)災(zāi)備服務(wù)提供商有限的硬件與軟件資源,動(dòng)態(tài)地、彈性的反應(yīng)前端業(yè)務(wù)對(duì)災(zāi)備的需求。
當(dāng)程序因故障中斷,如果不能保留其中間運(yùn)行狀態(tài),恢復(fù)后從頭運(yùn)行將會(huì)帶來極大的消耗。檢查點(diǎn)技術(shù)能夠解決這個(gè)問題。通過保留各個(gè)進(jìn)程的運(yùn)行狀態(tài),恢復(fù)時(shí)能夠復(fù)原到最近一次保留的數(shù)據(jù)映像。
傳統(tǒng)的檢查員機(jī)制是基于庫(kù)的檢查點(diǎn)機(jī)制。例如以靜態(tài)庫(kù)的形式實(shí)現(xiàn),或通過加載動(dòng)態(tài)鏈接庫(kù)來追蹤程序運(yùn)行過程中的數(shù)據(jù)變化。也有一些檢查點(diǎn)機(jī)制實(shí)現(xiàn)于內(nèi)核級(jí)別甚至硬件級(jí)別。例如通過在文件系統(tǒng)層之上引入一個(gè)中間層來實(shí)現(xiàn)保留文件系統(tǒng)狀態(tài)的檢查點(diǎn)機(jī)制;或者借助Fuse內(nèi)核模塊實(shí)現(xiàn)的支持檢查點(diǎn)機(jī)制的文件系統(tǒng),通過Fuse偵測(cè)、攔截內(nèi)核級(jí)別的文件系統(tǒng)操作并將控制權(quán)傳遞給用戶,從而能夠在用戶空間對(duì)文件系統(tǒng)狀態(tài)進(jìn)行保留。
隨著操作系統(tǒng)虛擬化技術(shù)的發(fā)展,基于虛擬容器的檢查點(diǎn)技術(shù)也得到了很好的應(yīng)用。虛擬容器是通過系統(tǒng)虛擬化技術(shù)構(gòu)建出來的一個(gè)進(jìn)程運(yùn)行的較獨(dú)立的上下文環(huán)境。虛擬容器檢查點(diǎn)技術(shù)能夠有效保護(hù)容器內(nèi)運(yùn)行的應(yīng)用程序和服務(wù)而不需要對(duì)應(yīng)用進(jìn)行修改。
1.5總體架構(gòu)設(shè)計(jì)
1.5.1Primeton“兩地三中心”容災(zāi)解決方案架構(gòu)設(shè)計(jì)
結(jié)合近年國(guó)內(nèi)出現(xiàn)的大范圍自然災(zāi)害,以同城雙中心加異地災(zāi)備中心的“兩地三中心”的災(zāi)備模式也隨之出現(xiàn),這一方案兼具高可用性和災(zāi)難備份的能力。
1.5.1.1“兩地三中心”本地高可用和容災(zāi)保護(hù)策略
(1)本地保護(hù)策略:
· 本地高可用 · 本地clone · 持續(xù)數(shù)據(jù)保護(hù) · B2D/BVTL · 磁帶備份 · Archive Log備份
(2)容災(zāi)保護(hù)策略
· 應(yīng)用級(jí)或者數(shù)據(jù)級(jí)容災(zāi) · 同級(jí)容災(zāi)、降級(jí)容災(zāi) · 同步數(shù)據(jù)保護(hù)/異步數(shù)據(jù)保護(hù) · 容災(zāi)數(shù)據(jù)復(fù)制技術(shù) · 主備中心運(yùn)營(yíng)方式/雙主中心運(yùn)營(yíng)方式/多中心運(yùn)營(yíng)方式 · 短、中、遠(yuǎn)期容災(zāi)策略
1.5.1.2“兩地三中心”功能定位
同城雙中心是指在同城或鄰近城市建立兩個(gè)可獨(dú)立承擔(dān)關(guān)鍵系統(tǒng)運(yùn)行的數(shù)據(jù)中心,雙中心具備基本等同的業(yè)務(wù)處理能力并通過高速鏈路實(shí)時(shí)同步數(shù)據(jù),日常情況下可同時(shí)分擔(dān)業(yè)務(wù)及管理系統(tǒng)的運(yùn)行,并可切換運(yùn)行;災(zāi)難情況下可在基本不丟失數(shù)據(jù)的情況下進(jìn)行災(zāi)備應(yīng)急切換,保持業(yè)務(wù)連續(xù)運(yùn)行。與異地災(zāi)備模式相比較,同城雙中心具有投資成本低、建設(shè)速度快、運(yùn)維管理相對(duì)簡(jiǎn)單、可靠性更高等優(yōu)點(diǎn)。
異地災(zāi)備中心是指在異地的城市建立一個(gè)備份的災(zāi)備中心,用于雙中心的數(shù)據(jù)備份,當(dāng)雙中心出現(xiàn)自然災(zāi)害等原因而發(fā)生故障時(shí),異地災(zāi)備中心可以用備份數(shù)據(jù)進(jìn)行業(yè)務(wù)的恢復(fù)。
1.5.1.3“兩地三中心”容災(zāi)架構(gòu)設(shè)計(jì)
邏輯架構(gòu)模型設(shè)計(jì):
物理架構(gòu)設(shè)計(jì):
方案特點(diǎn):
· 同城范圍有效保證了數(shù)據(jù)的安全性和業(yè)務(wù)連續(xù)性; · 異地復(fù)制數(shù)據(jù)根據(jù)災(zāi)難情形,盡可能降低數(shù)據(jù)丟失機(jī)率; · 同城雙中心為同步復(fù)制,數(shù)據(jù)實(shí)時(shí)同步,RPO=0; · 異地?zé)o距離限制,保證數(shù)據(jù)一致性,保證了數(shù)據(jù)的有效保護(hù); · 異地容災(zāi)帶寬要求低,先進(jìn)的復(fù)制機(jī)制提高帶寬利用率。
對(duì)于本地本級(jí)備份,應(yīng)建立在線、近線、離線等多級(jí)存儲(chǔ)備份系統(tǒng),充分利用先進(jìn)的備份手段和備份策略,形成完整的本地備份管理解決方案;備份的數(shù)據(jù)包括操作系統(tǒng)、數(shù)據(jù)文件以及應(yīng)用服務(wù)環(huán)境等多個(gè)方面;日常訪問的重要數(shù)據(jù)采用磁盤或者虛擬帶庫(kù)方式備份,歸檔數(shù)據(jù)和非重要數(shù)據(jù)采用磁帶庫(kù)方式備份;重要數(shù)據(jù)應(yīng)至少保證每周做一個(gè)全量備份,平時(shí)做增量備份。
對(duì)于數(shù)據(jù)級(jí)異地災(zāi)備中心,選址上,應(yīng)進(jìn)行風(fēng)險(xiǎn)分析,避免異地備份中心與主中心同時(shí)遭受同類風(fēng)險(xiǎn);網(wǎng)絡(luò)備用系統(tǒng)上,必須在核心網(wǎng)絡(luò)層面實(shí)現(xiàn)熱備,保證災(zāi)備中心區(qū)域內(nèi)通信的可靠性;數(shù)據(jù)備份系統(tǒng)上,主中心與備份中心的備份鏈路應(yīng)有冗余,并確保2小時(shí)內(nèi)將主中心的增量數(shù)據(jù)復(fù)制或備份到災(zāi)備中心;數(shù)據(jù)處理備用系統(tǒng)上,配備災(zāi)難恢復(fù)所需的全部數(shù)據(jù)處理設(shè)備,并處于就緒狀態(tài)或運(yùn)行狀態(tài),與主中心共同承擔(dān)部分核心應(yīng)用的查詢服務(wù)功能。
對(duì)于同城應(yīng)用級(jí)災(zāi)備中心,選址上,主中心與同城災(zāi)備中心距離應(yīng)小于100KM;網(wǎng)絡(luò)備用系統(tǒng)上,在核心網(wǎng)絡(luò)層面實(shí)現(xiàn)熱備,主中心與應(yīng)用級(jí)災(zāi)備中心間通過裸光纖互聯(lián)或VPLS互聯(lián),部署TRILL構(gòu)建大二層網(wǎng)絡(luò),滿足虛擬化需求;網(wǎng)絡(luò)負(fù)載均衡上,主中心網(wǎng)絡(luò)與災(zāi)備中心網(wǎng)絡(luò)的負(fù)載均衡,提高災(zāi)備網(wǎng)絡(luò)利用率與災(zāi)備網(wǎng)絡(luò)可用性,正常情況下數(shù)據(jù)流同時(shí)使用兩個(gè)中心的網(wǎng)絡(luò),主中心網(wǎng)絡(luò)出現(xiàn)故障時(shí),則全部數(shù)據(jù)流向?yàn)?zāi)備網(wǎng)絡(luò);應(yīng)用集群切換上,關(guān)鍵業(yè)務(wù)系統(tǒng)集群實(shí)現(xiàn)手動(dòng)切換,主中心與同城災(zāi)備中心之間建立高可用性監(jiān)控技術(shù),實(shí)現(xiàn)災(zāi)備中心應(yīng)用服務(wù)器集群與主中心生產(chǎn)服務(wù)器集群之間的高可用性切換;云計(jì)算技術(shù)采用上,采用虛擬化技術(shù)對(duì)同城災(zāi)備中心進(jìn)行規(guī)劃建設(shè),同時(shí),根據(jù)業(yè)務(wù)關(guān)鍵程度、對(duì)性能的要求,系統(tǒng)平臺(tái)選擇不同檔次和不同平臺(tái)的主機(jī)資源池、存儲(chǔ)資源池。
1.5.2基于不同服務(wù)需求選擇不同可靠性“兩地三中心”架構(gòu)
1.5.2.1服務(wù)等級(jí)劃分的可靠性
1.5.2.2 Primeton通用的基于服務(wù)的“兩地三中心”架構(gòu)
1.5.2.3 Primeton基于不同的服務(wù)質(zhì)量,達(dá)到不同級(jí)別的整體可靠性(tier)
(1)場(chǎng)景1
主環(huán)境如圖中A所示,包含了數(shù)據(jù)庫(kù),應(yīng)用,Web三層服務(wù)結(jié)構(gòu),本地高可用環(huán)境P作為同城備份站點(diǎn),復(fù)制100%A中的Web服務(wù),100%的A中的應(yīng)用在線服務(wù),100%的A中的OLTP事務(wù),異地在數(shù)據(jù)庫(kù)/應(yīng)用/Web層均復(fù)制75%A中的服務(wù)。那么這套方案整體的可靠性將會(huì)達(dá)到99.999%。
(2)場(chǎng)景2
主環(huán)境如圖中A所示,本地高可用環(huán)境P復(fù)制100%的A中的Web服務(wù),100%的A中的應(yīng)用在線服務(wù),異地在數(shù)據(jù)庫(kù)/應(yīng)用/Web層均復(fù)制75%的A。那么這套方案整體的可靠性將會(huì)達(dá)到99.99%。
(3)場(chǎng)景3
主環(huán)境如圖中A所示,本地高可用環(huán)境沒有即沒有同城備份站點(diǎn),異地在數(shù)據(jù)庫(kù)/應(yīng)用/Web層均有一個(gè)可以接受的備份(非和A環(huán)境100%相同)。那么這套方案整體的可靠性將會(huì)達(dá)到99.70%。
(4)場(chǎng)景4
主環(huán)境如圖中A所示,本地高可用環(huán)境沒有即沒有同城備份站點(diǎn),異地采用冷備的方式,僅僅在發(fā)生災(zāi)難的時(shí)候采取措施 。那么這套方案整體的可靠性只有99.00%。
|
|