【作者】陳萍春,現就職于保險行業(yè),擁有多年的系統(tǒng)、存儲以及數據備份等運維工作經驗。 1. 項目背景數據是企業(yè)的核心資產,數據備份可以有效應對系統(tǒng)運行過程中的存在的數據損失風險,是業(yè)務連續(xù)性的保障。隨著云計算、大數據等新技術的廣泛應用,傳統(tǒng)基于結構化數據備份的數據備份模式面臨著以下三方面的挑戰(zhàn):
為應對新的備份恢復場景,數據備份系統(tǒng)也需要與時俱進。本文從保險企業(yè)數據備份系統(tǒng)建設的實際需求出發(fā),充分利用重復數據刪除等數據備份技術,來優(yōu)化傳統(tǒng)備份架構,從而完成備份系統(tǒng)建設方案的規(guī)劃設計,希望對同行有一定的借鑒和參考價值。 2. 備份系統(tǒng)的規(guī)劃設計2.1需求分析完整的備份系統(tǒng)一般包括備份管理系統(tǒng)、備份介質、備份網絡以及備份策略。結合我司的實際情況,備份系統(tǒng)需要滿足以下方面的需求:
2.2 備份管理系統(tǒng)規(guī)劃備份管理系統(tǒng)主要包括備份軟件和備份管理服務器這兩類組件。 2.2.1 備份軟件備份軟件方面的工作包括:備份軟件選型和備份軟件架構規(guī)劃。
選型可參考的因素包括:場景適應性、技術支持服務能力、成熟度、Gartner企業(yè)級備份與恢復軟件的評測、運維人員技能儲備等等。通過備份軟件POC測試,以確定最終選型,測試項規(guī)劃為下表:
規(guī)劃生產、災備、郵箱歸檔域等備份域,按照主流備份軟件架構實踐,采用經典的三層架構,主控服務器用于集中管理各備份域,備份服務器用于提供備份介質管理和數據傳輸,客戶端包括備份客戶端及各種備份代理,整體架構示意圖如下: 2.2.2 備份服務器規(guī)劃一臺主控服務器,三臺備份服務器。
主控服務器與備份服務器的功能分離,本質上是一個管理數據庫,負責備份軟件層的調度管理,是備份軟件層最重要的組件,其他組件依賴它去重建或修復配置,需要保證高可用性與容災;主控服務器本身不涉及到備份介質管理與備份數據傳輸,IO壓力并不大。結合主控服務器的特點,可規(guī)劃虛擬機部署方式,通過虛擬化集群來保障主控服務器的高可用;容災方面,主控服務器可以通過虛擬機即時恢復技術恢復到災備集群,也可以通過備份軟件自身的DR備份恢復來實現,整體規(guī)劃架構圖如下:
三臺備份服務器受主控服務器管理,分別負責各自備份域的備份存儲介質、客戶端、數據流。生產域、災備域需要對接虛擬帶庫、物理磁帶庫、NAS存儲等備份存儲,承擔所有客戶端的備份數據流,規(guī)劃各部署一臺X86服務器,生產域與災備域的備份服務器可互為備份。這是由于主控服務器承擔了備份系統(tǒng)的大腦功能,備份服務器較容易災難恢復,只需要把備份介質與客戶端指向新的備份服務器即可。 郵件歸檔域的備份服務器主要用于Exchange郵箱的郵件歸檔,對性能要求較低,規(guī)劃部署為虛擬機。
數據備份流程參考下圖:
數據恢復流程參考下圖: 2.3 備份介質規(guī)劃傳統(tǒng)的備份介質主要是磁帶、硬盤、光盤等,對應的設備包括物理磁帶庫、虛擬磁帶庫、NAS存儲、光盤庫等,光盤相對小眾,主要用于特定的數據保護場景,暫不考慮。對于主流備份介質的規(guī)劃,可以從容量、性能、重刪壓縮、保存方式等特性來考慮,具體可參考下表:
結合上表中不同備份介質特性的對比,我們做出了如下的備份介質規(guī)劃:
規(guī)劃利用備份服務器本地SSD盤(后續(xù)可通過SAN存儲擴容)構建SSD存儲池,用作數據備份系統(tǒng)的主緩存池,結合備份軟件的重刪壓縮,有效減少落盤的數據量。大部分數據緩存保留3天,數據備份、恢復速度均能得到保障。
規(guī)劃分配較多的虛擬driver以保障充足的備份并發(fā)流,虛擬帶庫池作為數據備份系統(tǒng)的副緩存池,本身硬件層的重刪壓縮性能較好。
NAS存儲池主要是兩個用途:歸檔數據和保存期限相對短的數據。歸檔數據可滿足一定的數據在線能力,方便隨時調?。ㄈ绻麣w檔數據量較大,后續(xù)可以替換為對象存儲池);數據保存周期短,對容量需求相對較小,數據擦寫重用方便。
磁帶的特性適宜用于需要數據離線保存、數據保存周期較長的場景。新的LTO7帶機driver讀寫速度快、單盤磁帶容量大。但磁帶池是通過物理帶庫的帶機driver提供并發(fā)能力,而本方案中磁帶池不直接對接備份客戶端,而是經緩沖池的重刪壓縮后的數據,相比傳統(tǒng)直接對接客戶端備份的方式,可以有效減少帶機driver的使用。 備份介質整體使用思路如下圖: 2.4 備份網絡規(guī)劃備份網絡主要包括備份SAN、備份LAN網絡兩種,是數據備份時間窗口的重要影響因素之一,也是備份數據穩(wěn)定傳輸的保障。備份網絡規(guī)劃主要從以下幾個方面考慮:
由于數據備份系統(tǒng)的容災功能,需要保障備份數據流能跨數據中心同步,包括LAN網絡、SAN的同步數據流。
備份帶寬很大程度上會影響到備份時間窗口,特別需要關注數據流匯聚處的帶寬。本方案中主要關注的是備份服務器層的帶寬,采用萬兆LAN網絡,備份客戶端則視情況選擇備份網絡。備份SAN主要用于備份服務器連接磁帶庫、存儲設備以及客戶端Lanfree備份,而備份軟件可以在客戶端開啟數據重刪壓縮,重刪壓縮的數據流比較小,備份速度快,可以替代絕大部分Lanfree場景。
備份服務器一般規(guī)劃在獨立網段,在備份數據流較大的情況下可能會影響到正常的業(yè)務網絡訪問,除了注意備份窗口做規(guī)避外,還需要重點考慮數據庫場景、虛擬化場景以及對網絡核心交換層的影響,在條件允許的情況下,組建獨立備份局域網具有一定的必要性。 2.5 備份系統(tǒng)整體架構綜上,備份系統(tǒng)整體架構圖如下: 2.6 備份策略制定備份策略的內容包括需要備份的數據對象、備份的方式方法、備份數據落地的存儲介質以及數據保留周期等要素。按照不同的備份數據對象,適當錯開各自的備份時間窗口,并分別制定備份策略。通用的備份策略參考如下表格:
2.6.1 數據庫策略 數據庫一般都需要安裝單獨的備份客戶端,結合不同的數據庫用途,可再規(guī)劃分成三類策略:
這類策略需要重點保障核心級系統(tǒng)的RPO、RTO、備份窗口這三種指標。RPO對應的措施是數據庫每日全備份,歸檔日志定時備份;RTO對應的是需要保證數據恢復速度;備份窗口則是要提高備份速度,減少備份時間。核心類數據庫通過Lanfree備份方式,數據恢復時間比較能保證;而開啟備份軟件的數據重刪功能,通過LAN網絡就可以迅速完成數據備份。綜合考慮后,選擇LAN網絡和備份軟件客戶端重刪壓縮的方式,管理成本低,數據并發(fā)要求低,容錯性高。備份數據流策略如下圖:
這類策略可以通過備份軟件重刪壓縮來做全備份,但一般這類數據庫未開啟日志歸檔,DBA選擇了定期導出數據文件來備份,數據保留周期短;如后期選擇定期離線全備份,可以參照核心級的備份方式。其備份數據流策略如下圖:
其他數據庫采用備份軟件重刪壓縮來做每日全備份,無其他定時備份歸檔日志策略,備份數據流策略如下圖: 2.6.2 虛擬化與容器策略
虛擬機備份不需要安裝其他agent,而是基于VMware虛機備份代理VSA實現備份功能。規(guī)劃選取業(yè)務重要級別高的虛擬機來做備份,每日增量備份,每周做一次合成全備份,數據保留周期比較短。虛擬機中的數據重復率也非常高,重刪壓縮收益較高,采用的備份數據流策略如下圖: 虛擬機恢復策略相對更加多樣。不同的恢復方式對應于不同的恢復場景,可以整機恢復,也可以恢復虛機中的某些文件,也可以通過備份系統(tǒng)直接拉起虛擬機等方式。
目前容器場景暫未部署到生產環(huán)境,但數據備份也需要提前規(guī)劃。容器中的數據主要包括容器云集群組件配置信息備份、K8S資源對象信息、容器鏡像、容器PV快照等等,規(guī)劃采用備份腳本等方式定時將數據導出,備份到NAS存儲池。 2.6.3 非結構化數據策略非結構化數據也規(guī)劃了三種數據備份方式:
規(guī)劃一臺專門用于非結構化數據備份的服務器,掛載需要備份的NAS,減少對業(yè)務系統(tǒng)的影響。文件目錄級備份方式在數據恢復時,恢復的顆粒度比較細,能做文件級恢復。其特點是首次全備份時間長,但后續(xù)只需要每日增量備份,定期合成全備份即可。對于數據文件特別多的目錄,文件目錄掃描時間也會很長,不適宜海量文件目錄場景。
文件歸檔主要用于合規(guī)要求,需要對長期保存的文件定期歸檔。文件歸檔適宜于與文件目錄級備份配合使用。
NDMP方式是NAS存儲特有的數據傳輸協議,主要用于NAS文件系統(tǒng)級的備份,備份速度較快,但恢復顆粒度是整個NAS文件系統(tǒng),適宜于文件數較多、數據量大的NAS文件系統(tǒng)的備份 非結構化數據備份數據流策略如下: 2.6.4 郵箱歸檔策略郵箱歸檔設置了單獨的備份域,由一臺虛擬機作為備份服務器去對接郵箱系統(tǒng)。郵箱歸檔主要是需要滿足郵件合規(guī)保存要求,一般要求保存3年以上的郵件,設置好歸檔策略后,只需要每日定時歸檔,其備份數據流策略如下: 2.7 管理功能規(guī)劃
備份系統(tǒng)的監(jiān)控應對接現有的zabbix監(jiān)控系統(tǒng),并重點關注如下四個方面: 1)備份設備硬件狀態(tài):需要確認存儲設備硬件狀態(tài)正常 2)備份軟件進程和服務:需要確認備份軟件進程和服務端口正常 3)備份作業(yè)執(zhí)行結果:需要確認定時備份作業(yè)以及其他后臺作業(yè)都執(zhí)行正常 4)備份介質可用容量:需要確認備份介質的可用容量,提前做好容量預估
報表規(guī)劃主要需要訂制每日、每周、每月的運行情況定時報表,主要包括特定時間段內的不同備份數據對象的備份作業(yè)統(tǒng)計信息,包括完成作業(yè)數、失敗作業(yè)數、運行中的作業(yè)數、備份存儲消耗情況等等。
通過自動化手段,定期抓取備份系統(tǒng)的配置信息,包括主控服務器、備份服務器、備份客戶端、備份策略集、存儲策略、定時策略以及存儲庫等的詳細配置信息,關注整體備份窗口長度、重要數據的備份性能等信息,適時做出相關的備份配置策略調整。 3. 總結和反思
容量估算公式:后端容量 = (前端容量 x 備份周期 增量合計)/ 去重比。由于重復數據刪除技術的應用,容量估算難度加大,增量和去重比都是以經驗值計算,所以需要預估相當的容量冗余。運維過程中,更需要重點及時關注各存儲池上的數據備份周期、增量、去重比以及空閑容量的變化數據。
為進一步確認核心類數據庫的備份方式,已完成備份恢復測試。根據測試結果,LAN網絡備份方式下,2.5TB的核心庫的重刪壓縮數據流量約為456GB,備份時間只需要46分鐘,恢復時間與lanfree方式接近。SSD存儲池的使用,可以顯著地提高備份性能,不受SAN網絡、帶機driver數的限制,在運維管理方面,也避免了磁帶機相關故障導致的備份報錯問題。 另外一方面,在服務器本地SSD盤構建SSD存儲池的方案,具有一定的成本優(yōu)勢,但整體規(guī)模受限,可靠性并不高;但采用更復雜的存儲方案,又加重了管理等成本問題,也需要做好權衡。
|
|
來自: yi321yi > 《系統(tǒng)》