日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

京東數(shù)據(jù)中心設(shè)施運維管理(三)

 gary9 2019-07-13

10.1. 京東云華東數(shù)據(jù)中心設(shè)施運維管理

隨著大數(shù)據(jù)、云計算、智慧城市、移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)等應(yīng)用的快速發(fā)展,各行各業(yè)對于數(shù)據(jù)中心的需求量越來越大。數(shù)據(jù)中心單體規(guī)模越大、系統(tǒng)越復(fù)雜,其脆弱性也越高,對于數(shù)據(jù)中心運行維護管理水平的要求也就越高。

數(shù)據(jù)中心運維管理的范圍很廣泛,也是數(shù)據(jù)中心生命周期中最長的一個階段,主要包括基礎(chǔ)設(shè)施、各種IT設(shè)備、信息與數(shù)據(jù)、應(yīng)用軟件等。運維管理的好壞很大程度上決定了數(shù)據(jù)中心的使用壽命。本章主要介紹京東云華東數(shù)據(jù)中心在基礎(chǔ)設(shè)施運維管理方面所做的努力。

數(shù)據(jù)中心設(shè)施運維管理是為了確保數(shù)據(jù)中心基礎(chǔ)設(shè)施為電子信息系統(tǒng)提供穩(wěn)定可靠的運行環(huán)境,確保電子信息系統(tǒng)和其支持系統(tǒng)能夠安全、穩(wěn)定、可靠、持續(xù)并高能效地運行,實現(xiàn)運行維護的及時性、規(guī)范性、安全性和可用性。

10.1.1. 京東云華東數(shù)據(jù)中心設(shè)施運維管理的目標和內(nèi)容

京東云華東數(shù)據(jù)中心設(shè)施運維管理核心團隊組建于數(shù)據(jù)中心建設(shè)初期,其主要的專業(yè)技術(shù)管理人員都深度參與了整個數(shù)據(jù)中心園區(qū)的工程建設(shè)以及測試驗證等重要階段,對數(shù)據(jù)中心從無到有的過程都非常熟悉。在數(shù)據(jù)中心交付之前,他們就已經(jīng)了解這個數(shù)據(jù)中心基礎(chǔ)設(shè)施系統(tǒng)的構(gòu)成,掌握所有設(shè)計、施工、變更、整改的技術(shù)文檔和測試數(shù)據(jù),知道哪些部分是此后運維工作需要特別關(guān)注的薄弱點。

設(shè)施運維管理的基本目標包括:

1) 對與信息系統(tǒng)服務(wù)有關(guān)的數(shù)據(jù)中心各項管理對象進行系統(tǒng)地計劃、組織、協(xié)調(diào)與控制。

2) 依托于已交付的基礎(chǔ)設(shè)施,通過科學(xué)的管理,最終使數(shù)據(jù)中心得以實現(xiàn)服務(wù)與經(jīng)濟上的目標。

“三分技術(shù),七分管理”。大量的事實表明,數(shù)據(jù)中心運行的好與差,評判標準很大程度上是由管理水平的高低所決定的。一個數(shù)據(jù)中心即便采用了最新的技術(shù),如果運維管理不當,一定不是一個好的數(shù)據(jù)中心。一個好的數(shù)據(jù)中心會通過科學(xué)的運維管理,充分利用本身現(xiàn)有的技術(shù)和設(shè)備,將運行成本降到最低,而使能源利用最大化。

京東云華東數(shù)據(jù)中心設(shè)施運維管理還有一個非常重要的目標是“建立一套持續(xù)改進的機制”,這點往往容易被人們忽略。數(shù)據(jù)中心設(shè)施運維管理與數(shù)據(jù)中心設(shè)施系統(tǒng)建設(shè)階段的項目管理有很大的不同。項目管理是一次性的,必須保障“當前最佳”,因為沒有機會推倒重來;而數(shù)據(jù)中心運維管理是一個不斷循環(huán)迭代的過程?!耙惶壮掷m(xù)改進的機制”可以保障數(shù)據(jù)中心運行效率不斷提高、運行成本不斷降低。數(shù)據(jù)中心的設(shè)施運維工作是一個不斷改善的過程,正所謂“沒有最好,只有更好”。

所謂運行,是指對數(shù)據(jù)中心設(shè)施系統(tǒng)與設(shè)備進行日常地啟??刂?、參數(shù)設(shè)置、狀態(tài)監(jiān)控和優(yōu)化調(diào)節(jié),以確保電子信息系統(tǒng)和設(shè)施系統(tǒng)自身獲得安全、高效的運行環(huán)境。

所謂維護,是指為保證數(shù)據(jù)中心設(shè)施系統(tǒng)與設(shè)備具備正常運行所需要的條件,達到提高可靠性、排除隱患、延長壽命期等目的所進行的工作,包括定期巡檢、檢測、維護和保養(yǎng)等。

設(shè)施運行維護對象應(yīng)包括如下系統(tǒng):

  • 電氣系統(tǒng)

  1. 高壓配電設(shè)備

  2. 電力變壓器

  3. 低壓配電設(shè)備

  4. 不間斷電源系統(tǒng),UPS和電池

  5.  配電列頭柜

  6.  柴油發(fā)電系統(tǒng)

  7. 防雷接地系統(tǒng)

  8. 照明設(shè)備

  9. 電纜和母線槽

  • 暖通系統(tǒng)

  1. 冷源系統(tǒng)

  2. 精密空調(diào)

  3. 水管路系統(tǒng)

  4. 通風(fēng)設(shè)備

  5.  風(fēng)管路系統(tǒng)

  • 智能化系統(tǒng)

  1.  出入口控制系統(tǒng)

  2. 入侵報警系統(tǒng)

  3. 視頻監(jiān)控系統(tǒng)

  4. 電子巡更系統(tǒng)

  5. 環(huán)境監(jiān)控系統(tǒng)

  6. 設(shè)備監(jiān)控系統(tǒng)

  • 消防系統(tǒng)

  1. 消防供配電設(shè)施

  2. 火災(zāi)自動報警系統(tǒng)

  3. 消防供水設(shè)施及消火栓系統(tǒng)

  4. 自動滅火系統(tǒng)

  5. 防排煙系統(tǒng)

  6. 防火分隔設(shè)置

  7. 應(yīng)急照明與疏散指示系統(tǒng)

  8. 應(yīng)急廣播系統(tǒng)

  9. 消防專用電話

  10. 建筑滅火器

10.1.2. 京東云華東數(shù)據(jù)中心設(shè)施運維管理制度

1.人員管理

人是數(shù)據(jù)中心設(shè)施運維管理的基礎(chǔ),也是管理的核心。京東云華東數(shù)據(jù)中心的設(shè)施運維團隊按照工作內(nèi)容劃分為以下兩個主要職能:

  • 運維巡檢團隊:實行7×24小時輪崗工作制,對基礎(chǔ)設(shè)備設(shè)施進行巡檢,擔任值班工作,第一時間發(fā)現(xiàn)故障或問題,并作為管理程序的執(zhí)行者。主要包括電工、管道工、制冷工等,各個工種的技術(shù)員均持證上崗,協(xié)同作業(yè)。

  • 技術(shù)管理團隊:對數(shù)據(jù)中心場地基礎(chǔ)設(shè)施提供運維技術(shù)支持,解決技術(shù)問題,承擔數(shù)據(jù)中心場地基礎(chǔ)設(shè)施一般性的優(yōu)化改造工程的項目管理工作,即運維管理核心團隊,包括運維經(jīng)理以及暖通、電氣、智能化等專業(yè)的技術(shù)人員。

此外,運維團隊還定期組織技術(shù)交流分享會,在提升大家實戰(zhàn)技能的同時,促進員工之間互相學(xué)習(xí)。

2.設(shè)施管理

1) 設(shè)備臺賬制度

給每個獨立的數(shù)據(jù)中心模塊建立完整并實時更新的設(shè)備臺賬。臺賬包括所有關(guān)鍵基礎(chǔ)設(shè)施設(shè)備的清單,并完整記錄這些設(shè)備設(shè)施的運行情況、事件情況、變更情況、維護保養(yǎng)頻次等信息。

對影響安全運行的關(guān)鍵設(shè)備,如UPS、冷水機組、精密空調(diào)等的設(shè)定參數(shù)以及關(guān)鍵點的報警閥值制定了統(tǒng)一管理制度,結(jié)合數(shù)據(jù)中心實際運行情況經(jīng)技術(shù)討論后按統(tǒng)一參數(shù)值設(shè)定,運維巡檢人員不可以隨意修改。

2) 預(yù)防性維護計劃

為延長設(shè)備的使用壽命,減少設(shè)備故障的概率,必須對所有設(shè)備設(shè)施進行有計劃地維護。通過定期檢查和保養(yǎng),是設(shè)備設(shè)施的某些缺陷或隱患在變得更嚴重之前被發(fā)現(xiàn)。

運維團隊根據(jù)不同系統(tǒng)的設(shè)備情況與供應(yīng)商充分溝通,按照供應(yīng)商的建議提前制定年度、季度、月度預(yù)防性維護計劃。運維人員按照各設(shè)備系統(tǒng)的特性、維護流程及規(guī)范,及時、完整地落實維護工作,并形成客觀實際的記錄和報告存檔。此外,運維團隊還定期對設(shè)備運行狀態(tài)的數(shù)據(jù)進行統(tǒng)計和趨勢量化分析,對于異常的趨勢,及時作出報警和相關(guān)預(yù)案。

3) 維修工單制度

運維人員在接到工單時,能明確獲悉工作任務(wù)與注意事項,提前熟悉操作流程,做到心中有數(shù);在維修操作過程中,工單也可以起到指導(dǎo)操作的作用;在維修工作結(jié)束交單、備案歸檔。如在維修過程中遇到困難,亦可以向技術(shù)管理層及時反饋,做到閉環(huán)控制。

4) 操作流程

對數(shù)據(jù)中心基礎(chǔ)設(shè)施的所有操作,都事先制定詳細規(guī)范的操作流程,并要求每一位運維人員在開展運維工作時嚴格按照流程執(zhí)行,主要包括:

  • 維護作業(yè)程序MOP:根據(jù)設(shè)備供應(yīng)商提供的建議,結(jié)合數(shù)據(jù)中心的自身特點指定,用于指導(dǎo)對數(shù)據(jù)中心關(guān)鍵基礎(chǔ)設(shè)施設(shè)備進行維護、維修、安裝、操作時執(zhí)行的流程。

  • 標準操作流程SOP:所有關(guān)鍵基礎(chǔ)設(shè)施設(shè)備在任何情況下必須嚴格執(zhí)行的常用操作流程。比如,啟停發(fā)電機組的操作流程,UPS轉(zhuǎn)換到旁路帶載操作流程,機柜加電流程,故障應(yīng)急流程等。

  • 應(yīng)急操作流程EOP:在有可能發(fā)生嚴重故障的情況下應(yīng)執(zhí)行的流程。嚴重故障通常是指有可能使數(shù)據(jù)中心一個或多個主機房發(fā)生大面積宕機的故障。

5) 備件、耗材、儀器、工具管理

運維團隊根據(jù)設(shè)備臺賬及其分類制定最低備件和耗材的庫存清單并及時補充備件和耗材。為規(guī)范倉庫管理,指定專門的庫房管理員,定期盤點庫存,公示庫存情況。凡申請備件和耗材的運維人員必須實名填寫申請單,說明申請緣由和數(shù)量,由管理員登記在案。物資的出庫、入庫必須經(jīng)由管理員清點記錄,其他人不得隨意進出庫房。管理員需保證庫房安全,物資完好無損,不出事故。

將運維用的儀器和工具分門別類放置,每次運維人員交接班時對儀器和工具進行清點,簽字確認。對比較復(fù)雜的儀器儀表制定相關(guān)的操作指導(dǎo)規(guī)范。定期對儀器儀表進行校準。

6) 生命周期管理

運維核心團隊基于設(shè)施設(shè)備的合理生命周期,結(jié)合風(fēng)險評估,制定設(shè)備維護、升級或更換的計劃或預(yù)算,及時報告給上級主管部門。

3.運行管理

1) 日常巡檢及交接班管理

在正常開展運維工作時采用A、B角色配置,至少保證兩名不同工種的運維工程師配合巡檢,同時保證值班室留人員,及時通報數(shù)據(jù)中心運行狀態(tài)異常情況,重要問題就近人員應(yīng)急處理。

交接班時主要交接內(nèi)容包括:設(shè)備有無異常情況發(fā)生;當班遺留工作及完成內(nèi)容;異常情況簡述及處理;上級命令、指示的內(nèi)容和執(zhí)行情況;各種工具、儀器儀表、鑰匙、工作記錄和資料;機房環(huán)境衛(wèi)生情況;提醒接班者應(yīng)注意的事項及其他問題。在交接班時間內(nèi)發(fā)生事故或異?,F(xiàn)象,仍由交班人員處理,接班人員應(yīng)予以必要的協(xié)助完成。

2) 安全防范制度

將數(shù)據(jù)中心根據(jù)重要等級和功能區(qū)劃分相應(yīng)的控制區(qū)域,對出入權(quán)限實行分區(qū)、分級管理,對重要區(qū)域設(shè)置多重認證措施。所有訪客一律實名登記,獲得相應(yīng)授權(quán)后,在運維工作人員的陪同下方可進入機房區(qū)域。

機房區(qū)域設(shè)有7×24小時視頻監(jiān)控,所有進入監(jiān)控區(qū)的人員活動情況將被監(jiān)控系統(tǒng)記錄保存90天以上。

3) 機房清潔管理

劃定保潔區(qū)域,定期做好機房保潔工作,保證地板及地板下的無塵狀態(tài)。在重要區(qū)域進行保潔工作時必須有運維人員現(xiàn)場監(jiān)督和指導(dǎo)。

4) 事件管理

數(shù)據(jù)中心故障按照影響程度的不同分為四類事件。運維團隊制定事件管理流程,明確不同等級事件下相應(yīng)的處理流程。在數(shù)據(jù)中心故障發(fā)生時,嚴格按照事件的類型進行升級報告。

  • 事件等級分類

  1.  一級事件:關(guān)鍵服務(wù)中斷,影響SLA(服務(wù)等級協(xié)議)達成;

  2.  二級事件:關(guān)鍵服務(wù)組件出現(xiàn)故障,導(dǎo)致不滿足冗余條件或服務(wù)水平下降,有潛在影響SLA的可能性;

  3.  三級事件:非關(guān)鍵服務(wù)組件故障,不影響SLA的達成

  4.  四級事件:非關(guān)鍵服務(wù)組件的質(zhì)量下降,造成輕微可以忽略的影響

  •  事件升級報告


一級事件

二級事件

三級事件

四級事件

現(xiàn)場運維工程師

3分鐘內(nèi)報告運維主管

3分鐘內(nèi)報告運維主管

3分鐘內(nèi)報告運維主管

運維工程師現(xiàn)場處理

運維主管

5分鐘內(nèi)報告運維經(jīng)理

5分鐘內(nèi)報告運維經(jīng)理



運維經(jīng)理

10分鐘內(nèi)報告運維總監(jiān)

10分鐘內(nèi)報告運維總監(jiān)



運維總監(jiān)

5分鐘內(nèi)報告主管VP




5) 應(yīng)急響應(yīng)

  •  設(shè)施應(yīng)急預(yù)案演練

針對對應(yīng)的應(yīng)急操作流程EOP進行定期的演練工作,旨在發(fā)現(xiàn)應(yīng)急操作時存在的薄弱環(huán)節(jié),采取及時補救措施,提高運維人員應(yīng)對突然事件的團隊協(xié)作能力和應(yīng)變能力,縮短突發(fā)事故的處理時間,確保數(shù)據(jù)中心基礎(chǔ)設(shè)施安全運行。主要包括:

  1. 沙盤演練:參與演練的運維人員分別口述在發(fā)生緊急情況下自身所應(yīng)承擔的職責及將會執(zhí)行的方案及步驟。

  2. 跑位演練:參與演練的運維人員跑位到模擬故障現(xiàn)場,模擬處理故障,參與人員應(yīng)清晰地說出故障的處理方案及步驟。

  • 人員安全應(yīng)急流程

運維團隊針對影響運維人員身體健康的人身事故制定應(yīng)急流程并定期演練,包括設(shè)置現(xiàn)場急救包以及聯(lián)系當?shù)蒯t(yī)療急救機構(gòu)的方式等。

6) 容量管理

  • 空間容量

主要包括IT設(shè)備擺放空間、基礎(chǔ)設(shè)備設(shè)施擺放空間、綜合布線線路空間和配線架的管理。

  •  能力容量

主要包括電力供應(yīng)容量、制冷供應(yīng)容量、綜合布線信息點容量的管理。

運維團隊定期填寫運維周報和月報,如實記錄數(shù)據(jù)中心空間容量和基礎(chǔ)設(shè)施使用情況的變化,便于上級管理人員進行能源審計和能耗分析,掌握數(shù)據(jù)中心的整體利用率,預(yù)測業(yè)務(wù)增長趨勢,提前制定擴容或新建數(shù)據(jù)中心的計劃。

7) 能效管理

京東華東云數(shù)據(jù)中心PUE的計算方法見圖10.3.2-1

圖10.3.2-1  京東云華東數(shù)據(jù)中心PUE計算方法

根據(jù)實際運行數(shù)據(jù)分析,在低壓配電系統(tǒng)中,UPS系統(tǒng)用電量占比約68%~75%,冷源系統(tǒng)系統(tǒng)用電量占比約15%~20%,精密空調(diào)系統(tǒng)用電量占比約3%~5%,照明、通風(fēng)、辦公等其他用電量占比不到5%。所以,數(shù)據(jù)中心能效管理的目標是在保證電子信息系統(tǒng)安全高效運行的前提下,重點對UPS系統(tǒng)和冷源系統(tǒng)的運行控制策略進行合理優(yōu)化,降低整體PUE。

  • UPS系統(tǒng)的優(yōu)化控制

由UPS效率曲線(圖10.3.2-2)可以得出,負載率在10%以下時,UPS效率基本小于80%;負載率在10%~20%之間,UPS效率在80%~90%;負載率大于20%后,UPS效率大于90%;在負載率30%以上時,UPS效率曲線接近于直線,負載率的變化幾乎不再影響UPS效率變化。

10.3.2-2  UPS效率曲線

京東華東云數(shù)據(jù)中心采取UPS逆變器模塊休眠技術(shù),前期在UPS低負荷運行時,關(guān)閉一定數(shù)量的模塊,讓單機UPS達到較高的負載量,從而提高UPS的效率。這樣,只要使得UPS單機負載在30%以上,在低負載時效率已經(jīng)可到達幾乎滿載時的效率。

另外,休眠功能還有一個令數(shù)據(jù)中心擔心的問題是休眠后能否及時喚醒的問題,若休眠模塊不能及時喚醒,那么,帶載的模塊就可能出現(xiàn)過載保護的情況。本項目采取的運行策略是,在帶載逆變器負荷率大于60%時,就喚醒休眠的模塊帶載。

此外,UPS逆變器模塊休眠還采用自動輪換技術(shù),每間隔一定時間,休眠的逆變器模塊自動喚醒,而帶載的模塊自動休眠。這樣一來,不僅自動測試了UPS休眠功能,也使得逆變器模塊在整個生命周期內(nèi)帶載時間均衡。

  • 冷源系統(tǒng)的優(yōu)化控制

對冷源系統(tǒng)冷量的瞬時值和累積值進行監(jiān)測,冷水機組優(yōu)先采用由冷量優(yōu)化控制運行臺數(shù)的方式。對于京東云華東數(shù)據(jù)中心選用的三級壓縮離心式冷水機組來說,40%~80%負載為其高效率區(qū)。所以根據(jù)系統(tǒng)負荷的變化,合理控制冷水機組的開啟臺數(shù),使機組負載經(jīng)常保持在高效區(qū)運行,對于機組節(jié)能有顯著效果。

圖10.3.2-3   三級壓縮離心式冷水機組能效曲線

京東云華東數(shù)據(jù)中心冷源系統(tǒng)的設(shè)計供回水溫度為10/16℃。在實際運行過程中,根據(jù)室外環(huán)境的變化調(diào)整冷凍水供水溫度設(shè)定值可以節(jié)省冷機功耗。有研究表明,冷凍水供水溫度提高1℃,冷機功耗可降低4%左右。提高冷凍水供水溫度還能延長自然冷卻工況的運行時間。經(jīng)過理論測算,當供水溫度為10℃時,自然冷卻工況可運行3.5~4個月左右;當供水溫度為12℃時,自然冷卻工況可延長1個月左右。而實際情況表明,當供水溫度提高到15℃甚至更高,全年可使用自然冷卻的時間長達半年。而且14℃的供水溫度依然能保持機房環(huán)境溫度在26℃左右,符合GB50174-2017的推薦溫度。

在自然冷卻狀態(tài)下,關(guān)閉冷水機組使其進入待用狀態(tài),只開啟冷凍和冷卻水泵、冷卻塔,保持供水水溫在16度以下。在完全免費制冷季切換到常規(guī)制冷季過渡時段(即氣溫小幅升高基本穩(wěn)定,但未到常規(guī)制冷設(shè)計室外狀態(tài)點),可先開啟一組冷源設(shè)備,將冷水機組和冷卻塔切換為常規(guī)制冷狀態(tài),待該組冷源供冷穩(wěn)定后關(guān)閉;隨氣溫緩慢升高,按照以上操作,逐步增加切換機組的數(shù)量,直至將全部冷水機組切換為常規(guī)制冷狀態(tài),自然冷卻工況結(jié)束。從常規(guī)制冷季到完全免費制冷季,可按完全相反的順序進行操作切換。 

對于加裝了變頻器的電動設(shè)備,比如水泵和冷卻塔,保證設(shè)備頻率隨冷量變化動態(tài)調(diào)整很重要。前文中有提到,變頻設(shè)備的流量與頻率比成正比,功耗與頻率比的三次方成正比。多臺并機、降頻運行可以極大地節(jié)省設(shè)備功耗。不過為避免水泵本體過熱,頻率不宜低于30Hz。

10.3.2-4    京東云華東數(shù)據(jù)中心變頻水泵的測試驗證數(shù)據(jù)

10.3.2-5  京東云華東數(shù)據(jù)中心變頻水泵的功率曲線

  • 精密空調(diào)系統(tǒng)的優(yōu)化控制

京東云華東數(shù)據(jù)中心的精密空調(diào)全部采用EC風(fēng)機,對EC風(fēng)機的優(yōu)化控制可以幫助降低精密空調(diào)系統(tǒng)的能耗。如下圖所示,橫坐標表示EC風(fēng)機實際運行風(fēng)量與額定風(fēng)量的比值,縱坐標表示EC風(fēng)機實際功耗與額定功耗的比值??梢钥闯?,隨著EC風(fēng)機風(fēng)量的減少,功耗不斷下降。現(xiàn)場實測試數(shù)據(jù)顯示,50%以下風(fēng)量時,功耗下降并不明顯,而且運行風(fēng)險增大,所以EC風(fēng)機的風(fēng)量設(shè)置不宜低于50%。當主機房IT負載未達到滿載時,增加精密空調(diào)運行數(shù)量,降低單臺空調(diào)風(fēng)量有助于節(jié)能。

 圖10.3.2-6   京東云華東數(shù)據(jù)中心實測EC風(fēng)機風(fēng)量比與能耗比的關(guān)系曲線

  • 照明系統(tǒng)的優(yōu)化控制

京東云華東數(shù)據(jù)中心所有主機房均采用分布式照明智能控制系統(tǒng)。人員進入機房間時燈具根據(jù)感應(yīng)打開該部位燈具,人員離開時燈具則按設(shè)定的延時時間自動關(guān)閉。無人員進入機房時燈具能滿足運維監(jiān)控的最低照度,達到節(jié)能與自動控制的目的。

10.1.1. 京東云華東數(shù)據(jù)中心設(shè)施運維管理平臺

京東云華東數(shù)據(jù)中心是按照世界一流數(shù)據(jù)中心的理念設(shè)計和建設(shè)的,按照國際先進的運營管理模式投入運行,并為之設(shè)計了一套先進、可靠的智能化基礎(chǔ)設(shè)施運維管理平臺進行系統(tǒng)性支撐。

系統(tǒng)平臺圍繞著以下目標進行設(shè)計和建設(shè):

  • 能高度穩(wěn)定可靠地監(jiān)控園區(qū)環(huán)境、各相關(guān)系統(tǒng)和設(shè)備的運行狀態(tài),為運維管理提供必要信息;

  • 整合園區(qū)內(nèi)IT系統(tǒng)與數(shù)據(jù)中心基礎(chǔ)設(shè)施的管理,架起兩者間的溝通橋梁,分析電力、冷卻、空間、服務(wù)器、存儲及網(wǎng)絡(luò)帶寬等相關(guān)資源的數(shù)據(jù),最大化數(shù)據(jù)中心的運營效率,保障數(shù)據(jù)中心的可用性。

  • 以各類數(shù)據(jù)庫(全文數(shù)據(jù)庫、多媒體數(shù)據(jù)庫和關(guān)系數(shù)據(jù)庫)為管理工具,利用海量全文數(shù)據(jù)庫技術(shù)、數(shù)據(jù)加密和壓縮存儲等技術(shù),實現(xiàn)監(jiān)控實時化、資產(chǎn)數(shù)字化、流程系統(tǒng)化、業(yè)務(wù)流暢化等,從而達到對 IDC 業(yè)務(wù)涉及到的所有部門與資產(chǎn)統(tǒng)一管理的目標。

  • 通過規(guī)范流程管理,提高數(shù)據(jù)中心管理工作效率并提供安全舒適的工作環(huán)境;

  • 節(jié)省數(shù)據(jù)中心運行管理費用,達到短期投資長期受益的目的;

  • 軟、硬件均采用模塊化結(jié)構(gòu)設(shè)計,適應(yīng)發(fā)展需要,做到具有可擴展性、可變性,適應(yīng)環(huán)境的變化和工作性質(zhì)的多樣化,同時滿足今后與京東總部的數(shù)據(jù)中心云平臺對接的基本要求。

1.系統(tǒng)概況

京東云華東數(shù)據(jù)中心園區(qū)包含4個數(shù)據(jù)中心模塊,每個模塊配置一個獨立的監(jiān)控中心,整個園區(qū)設(shè)置一個綜合監(jiān)控中心ECC(位于園區(qū)中心)。

模塊級的監(jiān)控系統(tǒng)對基礎(chǔ)設(shè)施的監(jiān)控內(nèi)容包括:電氣部分(UPS、ATS、精密配電柜、智能電量儀表、防雷開關(guān)、蓄電池輸入開關(guān));動力部分(精密空調(diào)、冷水機組、水泵);環(huán)境部分(溫濕度、漏水監(jiān)測、可燃氣體濃度監(jiān)測等)。系統(tǒng)對被監(jiān)控設(shè)備進行實時的監(jiān)測和展示。其集成的子系統(tǒng)包括:高壓電力監(jiān)控系統(tǒng)(含柴油發(fā)電機、10KV進線柜、饋線柜、直流電源屏、變壓器、配電開關(guān)監(jiān)測等)、柴發(fā)供油控制系統(tǒng)。

園區(qū)級的系統(tǒng)平臺主要由四大功能模塊組成:基礎(chǔ)設(shè)施、客戶服務(wù)、客戶自助服務(wù)、大屏幕展示。這些功能模塊涵蓋 IDC 涉及的基礎(chǔ)設(shè)施運維監(jiān)控及業(yè)務(wù)流程管理方面,例如:實時監(jiān)視、業(yè)務(wù)流程管理、資源視圖、值班 OA 等,對所有業(yè)務(wù)流程進行分類模塊化管理,流程完善、清晰。系統(tǒng)還針對四大功能模塊基于 Android 與 IOS 移動終端開發(fā)了微信操控平臺, 方便各部門人員與客戶對 IDC 基礎(chǔ)業(yè)務(wù)的實時操控。

園區(qū)級的監(jiān)控平臺可實現(xiàn)以下功能:

  • 可用性管理,可視化展示各設(shè)備設(shè)施實時狀態(tài),實時掌握可用性狀況;

  • 業(yè)務(wù)流程規(guī)范化管理,變更風(fēng)險管控,降低變更帶給業(yè)務(wù)的影響;

  • 復(fù)雜事件分析處理,準確定位故障;大數(shù)據(jù)分析,智能預(yù)警;

  • 設(shè)備部署合理,平衡各維度容量綜合利用率,避免單項容量短板;

  • 可視化容量管理,直觀展示容量使用情況及趨勢分析,擴容決策及時準確;

  • 提供多維度運行分析報告,為運營決策提供數(shù)據(jù)支持;

  • 重大故障可實時準確提供數(shù)據(jù)中心應(yīng)急預(yù)案;


2.模塊級監(jiān)控系統(tǒng)架構(gòu)

系統(tǒng)架構(gòu)包含現(xiàn)場設(shè)備數(shù)據(jù)采集層、現(xiàn)場設(shè)備監(jiān)控層和集中監(jiān)控層。

  1. 現(xiàn)場設(shè)備數(shù)據(jù)采集層:由各種I/O采集模塊等組成,連接所有傳感器和被監(jiān)控設(shè)備,實現(xiàn)監(jiān)控平臺與被監(jiān)控對象的數(shù)據(jù)通訊。所有硬件采用模塊化架構(gòu),I/O模塊采集傳感器數(shù)據(jù)后通過系統(tǒng)配置實現(xiàn)對所有傳感器的數(shù)據(jù)匹配對應(yīng);各種智能設(shè)備直接接入現(xiàn)場監(jiān)控層。

  2.  現(xiàn)場設(shè)備監(jiān)控層:由多臺嵌入式服務(wù)器或獨立網(wǎng)絡(luò)控制器組成,負責收集與處理由現(xiàn)場設(shè)備采集層發(fā)送上來的數(shù)據(jù)?,F(xiàn)場應(yīng)根據(jù)系統(tǒng)總線數(shù)量、監(jiān)控單元的處理能力、機房物理分區(qū)等條件設(shè)置嵌入式服務(wù)器或獨立網(wǎng)絡(luò)控制器。

  3. 模塊集中監(jiān)控層:采集現(xiàn)場設(shè)備監(jiān)控層上傳的數(shù)據(jù),對本模塊內(nèi)的現(xiàn)場監(jiān)控服務(wù)器進行集中管理,實時監(jiān)測本塊組內(nèi)基礎(chǔ)設(shè)施的參數(shù)、狀態(tài),并提供IE遠程瀏覽服務(wù)。同時,使本模塊的監(jiān)控數(shù)據(jù)具備上傳至園區(qū)綜合監(jiān)控中心綜合監(jiān)控層的能力。

集中管理平臺配置了“雙服務(wù)器+雙數(shù)據(jù)庫”,實現(xiàn)容錯配置。

10.3.3-1 模塊級監(jiān)控系統(tǒng)界面(一)

10.3.3-2 模塊級監(jiān)控系統(tǒng)界面(二)

3.園區(qū)級監(jiān)控系統(tǒng)架構(gòu)

京東云(華東)數(shù)據(jù)中心綜合智能監(jiān)控管理平臺,可以實現(xiàn)對數(shù)據(jù)中心各設(shè)備和系統(tǒng)的統(tǒng)一監(jiān)控與管理,減輕維護人員工作負擔,同時提高整個系統(tǒng)的運行可靠性、穩(wěn)定性和兼容性、可擴性,實現(xiàn)機房的科學(xué)管理。

10.3.3-3 ECC控制中心大屏幕系統(tǒng)

1) 園區(qū)系統(tǒng)平臺架構(gòu)

著眼數(shù)據(jù)中心園區(qū)的整體規(guī)劃,系統(tǒng)采用“分布式”結(jié)構(gòu),滿足全天24小時運行,自動故障報警監(jiān)測。系統(tǒng)能在分布式結(jié)構(gòu)的基礎(chǔ)上方便實現(xiàn)新設(shè)備、新子系統(tǒng)的接入。系統(tǒng)預(yù)留北向接口,為京東總部的數(shù)據(jù)中心云平臺提供數(shù)據(jù)。

10.3.3-4 園區(qū)級監(jiān)控平臺架構(gòu)圖

1) 基礎(chǔ)設(shè)施模塊功能

基礎(chǔ)設(shè)施管理模塊是集高壓供電系統(tǒng)、低壓UPS 保障系統(tǒng)、冷水控制系統(tǒng)、環(huán)控系統(tǒng)、消防報警系統(tǒng)、視頻監(jiān)控系統(tǒng)、門禁系統(tǒng)等實時監(jiān)控、操作為一體的操作平臺。基礎(chǔ)設(shè)施模塊的構(gòu)成如圖10-4-6所示。

10.3.3-5 基礎(chǔ)設(shè)施模塊構(gòu)成圖

1) 客戶服務(wù)模塊功能

客服模塊保證第一時間受理客戶的需求,轉(zhuǎn)發(fā)至相關(guān)責任部門進行下一步處理,并對工單進行記錄跟進,確保 IDC 機房流程的順暢??蛻舴?wù)管理模塊的構(gòu)成如圖10-4-7所示。

10.3.3-6 客戶服務(wù)管理模塊構(gòu)成圖

1) 客戶自助服務(wù)模塊功能

客戶自服務(wù)模塊支持客戶對自有設(shè)備的查看,以及對 IDC 機房日常需求的申請發(fā)起??蛻糇苑?wù)模塊功能如圖10-4-8所示。

10.3.3-7 客戶自服務(wù)模塊構(gòu)成圖

1) 大屏展示模塊功能

通過該模塊可以動態(tài)的展示機房內(nèi)重要設(shè)備的關(guān)鍵參數(shù),實時直觀地顯示各系統(tǒng)設(shè)備的運行數(shù)據(jù)、運行狀態(tài)、機房內(nèi)的情況、各子系統(tǒng)相關(guān)拓撲圖。大屏幕展示模塊構(gòu)成如圖10-4-9所示。

10.3.3-8 大屏展示模塊構(gòu)成圖

京東云華東數(shù)據(jù)中心是京東技術(shù)轉(zhuǎn)型的一個全新嘗試。從它目前運營的穩(wěn)定情況來說無疑是成功的。這是一個可貴的開始,意味著京東厚積薄發(fā)的技術(shù)實力得到了實踐的驗證,也為今后在數(shù)據(jù)中心行業(yè)的技術(shù)探索增強了信心。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多