數(shù)據中心的軟件智能化已成為共識,但背后的IT運維到底要進化到何種程度?現(xiàn)實情況是,一方面隨著企業(yè)所面臨的運維數(shù)據在時間、空間、架構、規(guī)模等方面越來越復雜,另一方面新舊業(yè)務之間的平滑對接對傳統(tǒng)IT流程也是不小的考驗,如果運維的AI化落后于數(shù)據中心的AI,無疑會拖累數(shù)字化的進程。 如果按照字面意思,AIOps即Artificial Intelligence for IT Operations,不過Gartner對它的解釋是AlgorithmicIT Operations,也就是基于AI算法去解決IT運維流程中的問題,例如性能監(jiān)控、可用性分析、關聯(lián)事件、自動化,以及日志、應用狀態(tài)等運維數(shù)據信息。這一過程中,并不涉及人為的干擾因素。 調查顯示,全球有超過3000名CIO將數(shù)字化業(yè)務列為工作重點,預計AIOps的全球部署率會從2017年的10%升至2020年的50%,所覆蓋的行業(yè)將涉及金融、電力、醫(yī)療、航天、通信、HPC等領域。其背后的挑戰(zhàn)可以從幾個方面來看,首先是規(guī)模倍增,設備端可能有數(shù)十萬臺主機需要監(jiān)控至少數(shù)千個運行狀態(tài),所處理的數(shù)據量日均也是T4B級,而且還是實時的。 其次,IT運維對連續(xù)性的高要求使得持續(xù)的交付、集成、調度成為首選,再加上海量的數(shù)據,對已有的運維成本存在較大挑戰(zhàn),例如當前IT業(yè)務中充斥著公私混的云環(huán)境,以及第三方的SaaS類應用,傳統(tǒng)的管理辦法再彈性環(huán)境中難以適應,而借助人工去監(jiān)督、統(tǒng)計、追蹤、分析是很大的工作量,情況只會越來越糟。 此外,更多的感知行為正在向網絡邊緣移動,使得云基礎架構成為了IT解決方案部署的首選平臺,從而讓開發(fā)人員獲得了較以往更大的權力,IT人員還要在IT Ops的層面承擔更多責任,例如了解業(yè)務是如何在服務和底層架構之間進行交互的。 從腳本運維到工具運維,再到智能運維,特點可以體現(xiàn)以下方面:數(shù)據源搜集、大數(shù)據分析、規(guī)則及模式識別、域算法、AI算法、自動化。需要注意的是,AIOps并沒有改變AI應用本身,而是強調對流程、規(guī)則的AI化。例如,AIOps可以從無到有先對單點進行擊破,然后形成局部方案以此類推到面,由多個單點模塊組成完整的AIOps流程。其優(yōu)勢是,可知悉、可重用、可升級。 與此同時,運維團隊的角色也在轉變,要加入數(shù)據工程師、開發(fā)工程師甚至是AI工程師,除了繼續(xù)承擔質量、成本、效率方面的工作,還要在AIOps的實施過程中變身為需求的發(fā)起方和結果收驗方。其中,運維AI工程師也要學會利用機器學習對運維產生的數(shù)據、經驗進行整理和分析,最終讓數(shù)據發(fā)揮應用的價值。 當然要想具備運維AI的技能并不容易,對TensorFlow、Caffe、CUDA這些框架要有基礎,還要對交叉驗證、驗證曲線等模型評估有基本的判斷。要知道在基礎運維平臺中,除了在運維時要提供標準化的運維數(shù)據和操作,在AIOps時的一些接口仍需要同時支持人工和自動數(shù)據獲取和運維操作。 無論多么智能,AIOps的核心還是Ops,這就決定了其會是跨領域的技術理念,因此在企業(yè)內部開發(fā)者智能運維的時候,要結合業(yè)務特點來制定AI機制,不排除做二次開發(fā)的可能。如果運維不能AI化,那數(shù)據中心再怎么智能也只會停留在表層。 相關閱讀: |
|
來自: yi321yi > 《數(shù)據中心》