企業(yè)數(shù)據(jù)分析系統(tǒng)的數(shù)據(jù)來源是各個業(yè)務系統(tǒng)或手工數(shù)據(jù),這些數(shù)據(jù)的格式、內(nèi)容等都有可能不同。如果不進行數(shù)據(jù)治理,數(shù)據(jù)的價值難以發(fā)揮。只有對數(shù)據(jù)標準進行規(guī)范,管理元數(shù)據(jù)、數(shù)據(jù)監(jiān)控等,才能得到高質(zhì)量的數(shù)據(jù)。得到規(guī)范的數(shù)據(jù)后,才可在此基礎上進行主題化的數(shù)據(jù)建模、數(shù)據(jù)挖掘、數(shù)據(jù)分析等。 2013年被眾多的IT人定義為中國的大數(shù)據(jù)元年,這一年國內(nèi)的大數(shù)據(jù)項目開始在交通、電信、金融部門被廣泛推動。各大銀行對Hadoop的規(guī)劃、POC尤其風生水起,帶動了一波大數(shù)據(jù)應用的熱潮,這個熱潮和當初數(shù)據(jù)倉庫進入中國時的2000年左右很相似:應用還沒有想好,先歸集一下數(shù)據(jù),提供一些查詢和報表,以技術建設為主,業(yè)務推動為輔。這就導致了這股Hadoop熱潮起來的時候,傳統(tǒng)企業(yè)都是以數(shù)據(jù)歸集為主的,而BAT這樣的企業(yè)則天生以數(shù)據(jù)為生,早早進入了數(shù)據(jù)驅(qū)動技術和業(yè)務創(chuàng)新的階段。 隨著Hadoop技術的提升,數(shù)據(jù)如何進來,如何整合,開展什么樣的應用都已經(jīng)有了成熟的案例,可是,同傳統(tǒng)數(shù)倉時代一樣,垃圾進垃圾出,如何破?相比傳統(tǒng)數(shù)倉時代,進入Hadoop集群的數(shù)據(jù)更加的多樣、更加的復雜、量更足,這個數(shù)倉時代都沒有處理好的事情,如何能夠在大數(shù)據(jù)時代處理好,這是所有大數(shù)據(jù)應用者最最期盼的改變,也是大數(shù)據(jù)平臺建設者最有挑戰(zhàn)的難題:數(shù)據(jù)治理難的不是技術,而是流程,是協(xié)同,是管理。 元數(shù)據(jù):采集匯總企業(yè)系統(tǒng)數(shù)據(jù)屬性的信息,幫助各行各業(yè)用戶獲得更好的數(shù)據(jù)洞察力,通過元數(shù)據(jù)之間的關系和影響挖掘隱藏在資源中的價值。 數(shù)據(jù)標準:對分散在各系統(tǒng)中的數(shù)據(jù)提供一套統(tǒng)一的數(shù)據(jù)命名、數(shù)據(jù)定義、數(shù)據(jù)類型、賦值規(guī)則等的定義基準,并通過標準評估確保數(shù)據(jù)在復雜數(shù)據(jù)環(huán)境中維持企業(yè)數(shù)據(jù)模型的一致性、規(guī)范性,從源頭確保數(shù)據(jù)的正確性及質(zhì)量,并可以提升開發(fā)和數(shù)據(jù)管理的一貫性和效率性。 數(shù)據(jù)質(zhì)量:有效識別各類數(shù)據(jù)質(zhì)量問題,建立數(shù)據(jù)監(jiān)管,形成數(shù)據(jù)質(zhì)量管理體系,監(jiān)控并揭示數(shù)據(jù)質(zhì)量問題,提供問題明細查詢和質(zhì)量改進建議,全面提升數(shù)據(jù)的完整性、準確性、及時性,一致性以及合法性,降低數(shù)據(jù)管理成本,減少因數(shù)據(jù)不可靠導致的決策偏差和損失。 數(shù)據(jù)集成:可對數(shù)據(jù)進行清洗、轉(zhuǎn)換、整合、模型管理等處理工作。既可以用于問題數(shù)據(jù)的修正,也可以用于為數(shù)據(jù)應用提供可靠的數(shù)據(jù)模型。 主數(shù)據(jù):幫助企業(yè)創(chuàng)建并維護內(nèi)部共享數(shù)據(jù)的單一視圖,從而提高數(shù)據(jù)質(zhì)量,統(tǒng)一商業(yè)實體定義,簡化改進商業(yè)流程并提高業(yè)務的響應速度。 數(shù)據(jù)資產(chǎn):匯集企業(yè)所有能夠產(chǎn)生價值的數(shù)據(jù)資源,為用戶提供資產(chǎn)視圖,快速了解企業(yè)資產(chǎn),發(fā)現(xiàn)不良資產(chǎn),為管理員提供決策依據(jù),提升數(shù)據(jù)資產(chǎn)的價值。 數(shù)據(jù)交換:用于實現(xiàn)不同機構不同系統(tǒng)之間進行數(shù)據(jù)或者文件的傳輸和共享,提高信息資源的利用率,保證了分布在異構系統(tǒng)之間的信息的互聯(lián)互通,完成數(shù)據(jù)的收集、集中、處理、分發(fā)、加載、傳輸,構造統(tǒng)一的數(shù)據(jù)及文件的傳輸交換。 生命周期:管理數(shù)據(jù)生老病死,建立數(shù)據(jù)自動歸檔和銷毀,全面監(jiān)控展現(xiàn)數(shù)據(jù)的生命過程。 數(shù)據(jù)安全:提供數(shù)據(jù)加密、脫敏、模糊化處理、賬號監(jiān)控等各種數(shù)據(jù)安全策略,確保數(shù)據(jù)在使用過程中有恰當?shù)恼J證、授權、訪問和審計等措施。 建立完整的、科學的、安全的、高質(zhì)量的數(shù)據(jù)管控技術體系,是首要的任務。作為數(shù)據(jù)管控的基石,為了更好支撐后續(xù)工作的開展,技術體系必須一步到位,是功能完備、高質(zhì)量、高擴展性的,而不是僅實現(xiàn)部分功能,或者功能不完善的“半成品”。 疊加更多業(yè)務數(shù)據(jù)、細化數(shù)據(jù)業(yè)務屬性與管理屬性、優(yōu)化與調(diào)整數(shù)據(jù)管控流程,尤其是適應未來的現(xiàn)代企業(yè)數(shù)據(jù)管控制度的建立完善,是逐步積累推廣、不斷磨合改進的長期過程。這些工作應及早啟動,并成為后續(xù)大數(shù)據(jù)平臺建設工作的重點。 談大數(shù)據(jù)時代的數(shù)據(jù)治理 對于一個企業(yè)來說,把數(shù)據(jù)作為資產(chǎn),才是建設大數(shù)據(jù)的最終目的,而不是僅僅是因為Hadoop架構帶來性價比和未來的擴展性。當一個企業(yè)把數(shù)據(jù)作為資產(chǎn),他就像管理自己名下存折、信用卡一樣,定期梳理,無時無刻不關心資產(chǎn)的變化情況,關注資產(chǎn)的質(zhì)量。 而資產(chǎn)目錄就是管理資產(chǎn)的形式和手段,他像菜單一樣對企業(yè)的資產(chǎn)進行梳理、分門別類,提供給使用者;使用者通過菜單,點選自己需要的數(shù)據(jù),認可菜單對應的后端處理價值,后廚通過適當?shù)募庸?,推出相應的?shù)據(jù)服務;這是一個標準的流程,而這些流程之上,附著一整套數(shù)據(jù)管理目標和流程。 大數(shù)據(jù)平臺以數(shù)據(jù)資產(chǎn)目錄為核心,將元數(shù)據(jù)、數(shù)據(jù)標準、主數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)生命周期、數(shù)據(jù)輪廓等信息在邏輯層面關聯(lián)起來,在管理層面上整合成統(tǒng)一的整體,構建起數(shù)據(jù)管理體系,全面的支持數(shù)據(jù)服務等具體應用。 大數(shù)據(jù)平臺實現(xiàn)了數(shù)據(jù)存儲、清洗和應用。在數(shù)據(jù)匯入和匯出的過程中,需要對數(shù)據(jù)的元數(shù)據(jù)進行統(tǒng)一記錄和管理,以利于后續(xù)的數(shù)據(jù)應用和數(shù)據(jù)血緣分析。數(shù)據(jù)質(zhì)量一直是數(shù)據(jù)集成系統(tǒng)的基礎工作,對數(shù)據(jù)的各個環(huán)節(jié)設置數(shù)據(jù)質(zhì)量檢查點,對數(shù)據(jù)質(zhì)量進行剖析、評估,以保證后續(xù)應用的可信度。 在數(shù)據(jù)收集的過程中,隨著數(shù)據(jù)維度、指標的聚集,如何找到所需的業(yè)務指標及屬性,并且評估相關屬性的業(yè)務及技術細節(jié),需要對收集的所有數(shù)據(jù)進行業(yè)務屬性,并進行分類,建立完善的數(shù)據(jù)資產(chǎn)目錄。 數(shù)據(jù)資產(chǎn)目錄是整個大數(shù)據(jù)平臺的數(shù)據(jù)管理基礎,而數(shù)據(jù)資產(chǎn)目錄由于數(shù)據(jù)的多樣性,在使用的過程中,必然涉及數(shù)據(jù)權限的申請、審批管控流程,而管控流程的建立依賴于相應崗位的設立和對應職責的建立。 大數(shù)據(jù)平臺的數(shù)據(jù)管理架構規(guī)劃,通過數(shù)據(jù)物理集中和數(shù)據(jù)邏輯整合,徹底擺脫企業(yè)“數(shù)據(jù)豎井”的困境。大數(shù)據(jù)平臺數(shù)據(jù)管理架構分為功能架構、流向規(guī)劃和數(shù)據(jù)架構三個層面。 數(shù)據(jù)管理功能架構:借鑒DAMA數(shù)據(jù)管理和DMM數(shù)據(jù)成熟度理論,著眼于數(shù)據(jù)管理技術和數(shù)據(jù)管理流程融合,組織數(shù)據(jù)管理功能。 數(shù)據(jù)流向規(guī)劃架構:規(guī)劃整個大數(shù)據(jù)平臺的數(shù)據(jù)流向,并在數(shù)據(jù)流入、數(shù)據(jù)整合、數(shù)據(jù)服務的具體環(huán)節(jié)實現(xiàn)精細化管理。 數(shù)據(jù)管理的數(shù)據(jù)架構:以數(shù)據(jù)資產(chǎn)目錄為核心,數(shù)據(jù)項為最小管理單元,將技術元數(shù)據(jù)(實體、屬性和關系)、業(yè)務元數(shù)據(jù)和管理元數(shù)據(jù)(數(shù)據(jù)標準、主數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全)融合為彼此緊密聯(lián)系、密不可分的整體,共同構成精細化管理的數(shù)據(jù)基礎。 數(shù)據(jù)管理在整個大數(shù)據(jù)平臺不僅僅是一個主要功能模塊,它還是整個企業(yè)層面數(shù)據(jù)治理的重要組成部分,它是技術和管理流程的融合,也需要合理管控流程框架下組織機構之前的協(xié)調(diào)合作。如何利用統(tǒng)一的數(shù)據(jù)管理模塊對企業(yè)所有進入到數(shù)據(jù)湖的數(shù)據(jù)進行有效管控,不單單取決于數(shù)據(jù)管理模塊本身,也取決于元數(shù)據(jù)的合理采集、維護,組織結構及制度的強力支持保證。 談大數(shù)據(jù)時代的數(shù)據(jù)治理 億信睿治數(shù)據(jù)治理管理平臺和DAMA的對應關系如下: 談大數(shù)據(jù)時代的數(shù)據(jù)治理 因此數(shù)據(jù)管理介入到完整的數(shù)據(jù)流轉(zhuǎn),并在每個節(jié)點都有相應的管理目標對應,整個數(shù)據(jù)流框架如下圖所示: 談大數(shù)據(jù)時代的數(shù)據(jù)治理 |
|
來自: 昵稱16619343 > 《科研、學術文件》