云就可靠嗎?在技術(shù)變革和迭代的過(guò)程中,一切都不能保證100%的安全,只能更安全,卻不能完全安全,否則,就沒(méi)有技術(shù)人員什么事兒了。上海藍(lán)盟統(tǒng)計(jì)了一下,近些年,因?yàn)镮T系統(tǒng)出現(xiàn)故障導(dǎo)致對(duì)外服務(wù)降級(jí)和終止,從而造成極大影響的案例屢見(jiàn)不鮮,AWS、Azure和國(guó)內(nèi)的一些云服務(wù)商等曾被報(bào)道出過(guò)此類事故。背后的原因在于:一方面,隨著IT系統(tǒng)與業(yè)務(wù)日益密切,特別是不少企業(yè)IT即業(yè)務(wù),IT與業(yè)務(wù)已經(jīng)分不開(kāi),IT的重要性不言而喻;另一方面,IT系統(tǒng)越來(lái)越復(fù)雜,其管理難度越來(lái)越高。如果高效運(yùn)維成為IT部門乃至CIO必須面對(duì)的問(wèn)題,特別是那些大型數(shù)據(jù)中心這一問(wèn)題尤為突出。在這一背景之下,自動(dòng)化運(yùn)維以及AIOps等概念一經(jīng)提出就受到業(yè)界關(guān)注,特別是AIOps,在AI熱的加持下,這一概念很快就成為運(yùn)維領(lǐng)域最熱門的詞匯之一。那么,AIOps到底是什么?有啥魅力? AIOps為何被認(rèn)可 我們?cè)谡凙IOps之前,還是先看看IT運(yùn)維的現(xiàn)狀。如前所說(shuō),近些年來(lái),隨著IT應(yīng)用的日益普及,IT應(yīng)用越來(lái)越復(fù)雜,涉及面越來(lái)越廣,一旦出現(xiàn)故障,診斷越來(lái)越困難,導(dǎo)致人才緊缺。比如,硬件方面會(huì)涉及用戶終端、服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等,在軟件方面則有操作系統(tǒng)、中間件、數(shù)據(jù)庫(kù)等,另外還涉及運(yùn)營(yíng)商的網(wǎng)絡(luò)、云服務(wù)商、CDN服務(wù)商等,其中任何一個(gè)環(huán)節(jié)出現(xiàn)問(wèn)題都會(huì)導(dǎo)致用戶體驗(yàn)欠佳。而讓這個(gè)問(wèn)題更為復(fù)雜的是,當(dāng)今互聯(lián)網(wǎng)環(huán)境下越來(lái)越多的應(yīng)用之間通過(guò)API或者Web服務(wù)進(jìn)行通信時(shí),這一切就更為困難。 為了高效運(yùn)維,此前人們提出自動(dòng)化運(yùn)維的理念,希望通過(guò)各種軟件工具,特別是一些開(kāi)源產(chǎn)品(如Ansible、Chef)來(lái)自動(dòng)化流程,通過(guò)減少人力來(lái)提高效率。但這只是解決執(zhí)行問(wèn)題,沒(méi)有解決診斷和歸因的問(wèn)題。實(shí)際上,在故障發(fā)生和面對(duì)各個(gè)各樣報(bào)警信息時(shí)如何快速準(zhǔn)確找到問(wèn)題所在,這是解決故障的關(guān)鍵。而AI和大數(shù)據(jù)技術(shù)的出現(xiàn),讓我們看到了解決這個(gè)問(wèn)題的希望。實(shí)際也正如我們看到的,AI和大數(shù)據(jù)等數(shù)據(jù)分析和處理技術(shù)在改變傳統(tǒng)行業(yè)的同時(shí),也IT行業(yè)自己帶來(lái)新的發(fā)展,IT運(yùn)維就是其中之一。 上海藍(lán)盟認(rèn)為“IT運(yùn)維正在從大數(shù)據(jù)和AI技術(shù)中受益,從而使得IT運(yùn)維開(kāi)始轉(zhuǎn)向IT運(yùn)營(yíng),IT運(yùn)維也從被動(dòng)防護(hù)轉(zhuǎn)向主動(dòng)感知?!?/p> 這種受益首先體現(xiàn)在,大數(shù)據(jù)的出現(xiàn)讓IT運(yùn)維有了能力來(lái)收集和處理海量的信息,而且是幾乎實(shí)時(shí)地完成整個(gè)過(guò)程。其次,AI技術(shù)的引入讓系統(tǒng)有了“火眼金星”,可以及時(shí)發(fā)現(xiàn)問(wèn)題、預(yù)測(cè)問(wèn)題,并自動(dòng)解決問(wèn)題,大大減少了人工參與。 從自動(dòng)化到智能運(yùn)維 注意到IT運(yùn)維行業(yè)上述變化,善于制造概念的Gartner于2016年提出AIOps(智能運(yùn)維),稱其為應(yīng)用了AI技術(shù)的新一代IT運(yùn)維,將代表IT運(yùn)維的新趨勢(shì)。 Gartner在對(duì)2018年的技術(shù)預(yù)測(cè)報(bào)告《Predicts 2018: IT Operations》中提到,未來(lái)五年,隨著數(shù)字化程度的提高,75%的企業(yè)可能會(huì)遭遇IT故障造成的業(yè)務(wù)中斷,越來(lái)越多的大型企業(yè)將使用人工智能進(jìn)行IT運(yùn)營(yíng)(AIOps),以支持和部分取代傳統(tǒng)的ITOM。其中,到2019年,四分之一的全球企業(yè)將策略性地實(shí)施AIOps支持兩個(gè)或更多主要IT運(yùn)營(yíng)功能;到2022年,40%的大型企業(yè)將結(jié)合大數(shù)據(jù)和機(jī)器學(xué)習(xí)功能,支持和部分替代監(jiān)測(cè)、服務(wù)臺(tái)和自動(dòng)化流程和任務(wù)。Gartner在報(bào)告中指出,現(xiàn)在是開(kāi)始戰(zhàn)略性地利用 AlOps平臺(tái)進(jìn)行IT運(yùn)營(yíng)的時(shí)候了。 很顯然,AIOps被Gartner的一經(jīng)提出很快就被廣泛接受,也引發(fā)了眾多從事IT運(yùn)維業(yè)務(wù)的廠商們積極跟進(jìn)。實(shí)際上,今天我們看到幾乎所有從事IT運(yùn)維行業(yè)的廠商都宣稱在其產(chǎn)品中集成了AI和大數(shù)據(jù)功能。 AIOps能干什么? 根據(jù)Gartner的定義,AIOps的主要目標(biāo)包括:通過(guò)采集當(dāng)前環(huán)境中的運(yùn)維數(shù)據(jù),集成現(xiàn)有IT運(yùn)維管理工具,利用算法等高級(jí)數(shù)據(jù)分析技術(shù)對(duì)IT系統(tǒng)中各個(gè)環(huán)節(jié)的問(wèn)題進(jìn)行快速定位、故障排除和預(yù)測(cè);對(duì)來(lái)自業(yè)務(wù)環(huán)節(jié)中各個(gè)分布式系統(tǒng)的數(shù)據(jù)進(jìn)行聚合分析,合理優(yōu)化IT服務(wù),挖掘關(guān)鍵業(yè)務(wù)的KPI指標(biāo),反哺業(yè)務(wù)端,幫助其做出明智決策;通過(guò)大數(shù)據(jù)和人工智能技術(shù)分析用戶的行為日志和運(yùn)維數(shù)據(jù),發(fā)掘潛在的系統(tǒng)安全和合規(guī)問(wèn)題,為企業(yè)的信息安全保駕護(hù)航。 功能看起來(lái)很多,但在筆者看來(lái)最為核心的功能有:發(fā)現(xiàn)異常、定位故障、基線預(yù)測(cè)等,這些都屬于智能運(yùn)維范疇,在此之上還有提供對(duì)業(yè)務(wù)支撐和運(yùn)營(yíng),也就是現(xiàn)在一些廠商提的“IT運(yùn)營(yíng)”。與前面的核心功能相比,業(yè)務(wù)支撐和運(yùn)營(yíng)各家都有自己的解讀。相比較而言,前面的幾個(gè)功能更容易理解,也更為普遍。 以發(fā)現(xiàn)異常為例,傳統(tǒng)IT運(yùn)維工具中都會(huì)采用基于經(jīng)驗(yàn)值來(lái)定義異常閾值,這種方法主要基于人的主觀判斷。而基于機(jī)器學(xué)習(xí)的方法,通過(guò)積累歷史運(yùn)維數(shù)據(jù),根據(jù)日常運(yùn)維的需求在數(shù)據(jù)特征的基礎(chǔ)上建立算法模型,對(duì)模型進(jìn)行周期性地訓(xùn)練學(xué)習(xí),從而能為IT系統(tǒng)提供更為及時(shí)、準(zhǔn)確、高覆蓋的檢測(cè)結(jié)果。比如,傳統(tǒng)異常發(fā)現(xiàn)的流程是運(yùn)維人員在系統(tǒng)中創(chuàng)建了業(yè)務(wù)路徑,并對(duì)路徑中關(guān)注的節(jié)點(diǎn)或連線進(jìn)行告警設(shè)置。如數(shù)據(jù)中心網(wǎng)銀交易服務(wù)器響應(yīng)時(shí)間告警的設(shè)置為>300ms,如果運(yùn)維軟件監(jiān)測(cè)到響應(yīng)時(shí)間超過(guò)300ms,系統(tǒng)告警。而采用AI方法進(jìn)行異常檢測(cè)時(shí),運(yùn)維人員不用對(duì)業(yè)務(wù)路徑做任何告警設(shè)置,當(dāng)機(jī)器學(xué)習(xí)算法檢測(cè)到某個(gè)業(yè)務(wù)路徑的某個(gè)節(jié)點(diǎn)或連線上產(chǎn)生了異常值,就會(huì)自動(dòng)拋出異常事件。 抑制告警風(fēng)暴也是AIops的非常實(shí)用的功能。所謂告警風(fēng)暴是指在短時(shí)間內(nèi)系統(tǒng)產(chǎn)生大量告警消息,這些消息有的是由某種共同因素引發(fā),互相之間存在一定關(guān)聯(lián)。大型企業(yè)的IT應(yīng)用系統(tǒng)龐大而復(fù)雜,設(shè)備數(shù)量動(dòng)輒成千上萬(wàn),任何一個(gè)小小的IT問(wèn)題都有可能引發(fā)“告警風(fēng)暴”。大量同一事故源引發(fā)的告警信息會(huì)極大地干擾運(yùn)維人員的工作,導(dǎo)致運(yùn)維人員疲于應(yīng)付大量的告警消息,需要耗費(fèi)更多時(shí)間排查和處理問(wèn)題,大大降低了運(yùn)維效率,更為嚴(yán)重的是會(huì)讓真正關(guān)鍵的告警信息淹沒(méi)其中,由于無(wú)法第一時(shí)間發(fā)現(xiàn)根源問(wèn)題,延誤了故障處理時(shí)間。而AIops通過(guò)算法模型結(jié)合固定規(guī)則的方式對(duì)告警消息進(jìn)行告警壓縮和告警合并,在保證核心告警內(nèi)容(即不壓縮核心告警內(nèi)容)的前提下合并告警消息數(shù)量,為運(yùn)維人員提供有效的告警信息。 就藍(lán)盟在IT外包的過(guò)程中了解到,有很多廠商提出“IT運(yùn)營(yíng)”,不只是讓AIOps用于運(yùn)維,還希望讓AIOps為業(yè)務(wù)運(yùn)營(yíng)提供更多直接支持,比如對(duì)IT系統(tǒng)進(jìn)行預(yù)警和預(yù)測(cè),輔助決策,從而為企業(yè)的IT管理從IT運(yùn)維向IT運(yùn)營(yíng)轉(zhuǎn)型提供幫助。應(yīng)該說(shuō),這應(yīng)該是IT運(yùn)維的發(fā)展方向,畢竟運(yùn)營(yíng)才能產(chǎn)生效益,Gartner也提出了這個(gè)觀點(diǎn)。但與IT運(yùn)維相比,IT運(yùn)營(yíng)還是一個(gè)更高級(jí)的階段,如何支持還需要更多探索。 |
|