數(shù)據(jù)是企業(yè)擁有的最大資產(chǎn)之一,但是數(shù)據(jù)也越來(lái)越難以管理和控制。干凈、可信的數(shù)據(jù)能夠?yàn)槠髽I(yè)提供更好的服務(wù),提高客戶忠誠(chéng)度,提高生產(chǎn)效率,提高決策能力。然而,數(shù)據(jù)也可以被認(rèn)為是企業(yè)最大的風(fēng)險(xiǎn)來(lái)源。有效地利用信息,通過(guò)創(chuàng)造性地利用數(shù)據(jù)來(lái)優(yōu)化人員和流程從而增加創(chuàng)新的能力。相反,糟糕的數(shù)據(jù)管理往往意味著糟糕的業(yè)務(wù)決策和結(jié)果,更容易受到違反法規(guī)和數(shù)據(jù)失竊的影響。 大數(shù)據(jù)給信息治理過(guò)程、工具和組織帶來(lái)了更大的挑戰(zhàn)。隨著我們朝著低延遲決策和大量不受控制的外部數(shù)據(jù)的方向發(fā)展,它變得更加重要。在大數(shù)據(jù)環(huán)境中,需要提出幾個(gè)關(guān)鍵的治理問(wèn)題,包括在實(shí)時(shí)分析和實(shí)時(shí)決策,強(qiáng)調(diào)低延遲數(shù)據(jù)管理的情況下,如何進(jìn)行數(shù)據(jù)治理。 一、數(shù)據(jù)治理能力成熟度模型 從結(jié)構(gòu)化數(shù)據(jù)到非結(jié)構(gòu)化數(shù)據(jù),包括客戶和員工數(shù)據(jù)、元數(shù)據(jù)、商業(yè)機(jī)密、電子郵件、視頻和音頻,組織必須找到一種方法,在不妨礙信息自由流動(dòng)和創(chuàng)新的情況下,根據(jù)業(yè)務(wù)需求管理數(shù)據(jù)。能力成熟度模型(Capabilities Maturity Model,CMM)描述了一個(gè)框架和方法,用于度量數(shù)據(jù)治理的進(jìn)度。這個(gè)結(jié)構(gòu)化的元素集合提供了一個(gè)穩(wěn)定的、可測(cè)量的進(jìn)展到最終想要的成熟度狀態(tài)。根據(jù)CMM,衡量數(shù)據(jù)治理進(jìn)度的五個(gè)級(jí)別是: 成熟度級(jí)別1(初始):流程通常是臨時(shí)的,環(huán)境不穩(wěn)定。 成熟度級(jí)別2(重復(fù)):成功是可重復(fù)的,但流程可能不會(huì)對(duì)組織中的所有項(xiàng)目重復(fù)。 成熟度級(jí)別3(定義):組織的標(biāo)準(zhǔn)流程用于建立整個(gè)組織的一致性。 成熟度級(jí)別4(管理):組織為過(guò)程和維護(hù)設(shè)定定量質(zhì)量目標(biāo)。 成熟度級(jí)別5(優(yōu)化):組織的定量過(guò)程改進(jìn)目標(biāo)被牢固地建立并不斷地修改以反映不斷變化的業(yè)務(wù)目標(biāo),并被用作管理過(guò)程改進(jìn)的標(biāo)準(zhǔn)。 數(shù)據(jù)治理成熟度模型有助于企業(yè)和其他利益相關(guān)者如何使戰(zhàn)略更有效。成熟度模型基于IBM數(shù)據(jù)治理委員會(huì)成員的輸入。它定義了誰(shuí)需要參與管理和度量企業(yè)在整個(gè)組織中管理數(shù)據(jù)的方式的范圍。 數(shù)據(jù)治理成熟度模型基于以下11類數(shù)據(jù)治理成熟度來(lái)衡量數(shù)據(jù)治理的能力: 1、數(shù)據(jù)風(fēng)險(xiǎn)管理和合規(guī)性:識(shí)別、鑒定、量化、避免、接受、減輕或轉(zhuǎn)出風(fēng)險(xiǎn)的方法。對(duì)公共基礎(chǔ)設(shè)施的要求可能會(huì)有所不同;例如,與高可用性或?yàn)?zāi)難恢復(fù)相關(guān)的要求。這些領(lǐng)域的大數(shù)據(jù)技術(shù)也沒(méi)有那么成熟。 2、價(jià)值創(chuàng)造:對(duì)數(shù)據(jù)資產(chǎn)進(jìn)行限定和量化的過(guò)程,以使業(yè)務(wù)能夠最大化由數(shù)據(jù)資產(chǎn)創(chuàng)造的價(jià)值。由于大數(shù)據(jù)處理的是大容量和高速度的數(shù)據(jù),因此基礎(chǔ)設(shè)施不能很容易地在筒倉(cāng)中復(fù)制。跨組織部門的業(yè)務(wù)價(jià)值可以匯集在一起,以創(chuàng)建一個(gè)共同的基礎(chǔ)設(shè)施,在不同的組織(如市場(chǎng)營(yíng)銷、生產(chǎn)管理和風(fēng)險(xiǎn)管理)之間共享。 3、組織結(jié)構(gòu)和意識(shí):業(yè)務(wù)和IT之間的相互責(zé)任水平,以及對(duì)跨部門管理數(shù)據(jù)的受托責(zé)任的認(rèn)識(shí)。每個(gè)組織都可能帶來(lái)不同程度的真實(shí)性的外部大數(shù)據(jù)源。由于這些數(shù)據(jù)源是為公共標(biāo)識(shí)符和使用而收集和挖掘的,因此理解聯(lián)邦統(tǒng)一非常重要,它為每個(gè)組織提供維護(hù)其環(huán)境的能力,同時(shí)保持與聯(lián)邦定義的連接。 4、管理:質(zhì)量控制規(guī)程,旨在確保數(shù)據(jù)的保管,以實(shí)現(xiàn)資產(chǎn)增強(qiáng)、風(fēng)險(xiǎn)緩解和組織控制。隨著外部數(shù)據(jù)(如社交媒體)的訪問(wèn),擴(kuò)展管理角色以包括外部數(shù)據(jù)非常重要。管理還應(yīng)該考慮隱私問(wèn)題,特別是社交媒體和使用數(shù)據(jù)。 5、政策:組織行為的書面表達(dá)。通過(guò)使用治理、風(fēng)險(xiǎn)和法規(guī)遵從性(GRC)框架,大數(shù)據(jù)池和管理數(shù)據(jù)遵循這些策略。例如,有一個(gè)組織在其CRM環(huán)境中利用使用數(shù)據(jù)。該組織制定了一項(xiàng)政策,要求定期刪除這些數(shù)據(jù),以維護(hù)客戶隱私。大數(shù)據(jù)治理程序可能會(huì)將匿名使用數(shù)據(jù)保留較長(zhǎng)時(shí)間,但會(huì)刪除與CRM的鏈接。 6、數(shù)據(jù)質(zhì)量管理:測(cè)量、改進(jìn)和證明生產(chǎn)、測(cè)試和存檔數(shù)據(jù)的質(zhì)量和完整性的方法。大數(shù)據(jù)帶來(lái)了與動(dòng)態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù)相關(guān)的數(shù)據(jù)質(zhì)量問(wèn)題??梢詫?shù)據(jù)挖掘與CRM和大數(shù)據(jù)源結(jié)合使用,以提高數(shù)據(jù)質(zhì)量。例如,訂戶的帳單地址可能與其服務(wù)位置不同。使用CDR數(shù)據(jù),可以更新服務(wù)位置并使用這些數(shù)據(jù)來(lái)提高服務(wù)質(zhì)量。 7、信息生命周期管理(ILM):系統(tǒng)的、基于策略的信息收集、使用、保留和刪除方法。目前可以輕松地用大容量大數(shù)據(jù)填充數(shù)PB的Hadoop存儲(chǔ)空間。雖然成本低于傳統(tǒng)的商業(yè)智能環(huán)境,但長(zhǎng)期使用PB級(jí)存儲(chǔ)的成本會(huì)增加。ILM策略基于卷預(yù)測(cè)、業(yè)務(wù)價(jià)值和成本。這些策略允許企業(yè)決定在哪里存儲(chǔ)數(shù)據(jù)(在線用于分析,離線用于法規(guī)遵從性)、存儲(chǔ)多少數(shù)據(jù)(聚合數(shù)據(jù)與原始數(shù)據(jù)的數(shù)量)以及何時(shí)開(kāi)始刪除數(shù)據(jù)(生活方式更改后可能無(wú)效的舊使用模式)。 8、信息安全和隱私:組織用來(lái)降低風(fēng)險(xiǎn)和保護(hù)數(shù)據(jù)資產(chǎn)的策略、實(shí)踐和控制。維度包括策略的定義和執(zhí)行。這是大數(shù)據(jù)最重要的治理維度。盡管私有和敏感數(shù)據(jù)應(yīng)該受到小心保護(hù),但發(fā)現(xiàn)和存儲(chǔ)私有和敏感數(shù)據(jù)的可能性仍然存在。在某些情況下,訂閱者同意在特定用例中使用私有數(shù)據(jù)。在這些情況下,數(shù)據(jù)不應(yīng)在獲得選擇性加入的有限用例之外提供。與人口數(shù)據(jù)(如姓名、電話號(hào)碼和信用卡信息)相比,根據(jù)使用信息,推斷的行為數(shù)據(jù)(工作地點(diǎn)、好友列表和外出時(shí)間)可能是私有的,或者在某些情況下是更私有的。 9、數(shù)據(jù)體系結(jié)構(gòu):結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)系統(tǒng)和應(yīng)用程序的體系結(jié)構(gòu)設(shè)計(jì),使數(shù)據(jù)可用性和分發(fā)給適當(dāng)?shù)挠脩簟T谝粋€(gè)典型的組織中,必須保留過(guò)去在商業(yè)智能方面的大量投資。這導(dǎo)致了一種混合的體系結(jié)構(gòu),其中事務(wù)和統(tǒng)計(jì)數(shù)據(jù)可能會(huì)保留在傳統(tǒng)的商業(yè)智能環(huán)境中,并且可以添加大數(shù)據(jù)體系結(jié)構(gòu)來(lái)連接和使用數(shù)據(jù)。在這些混合情況下,組織的ETL、主/引用數(shù)據(jù)和元數(shù)據(jù)的共享非常重要。對(duì)于高速數(shù)據(jù)和信息,必須設(shè)計(jì)數(shù)據(jù)體系結(jié)構(gòu)以滿足延遲要求。 10、分類和元數(shù)據(jù):用于為業(yè)務(wù)和IT術(shù)語(yǔ)、數(shù)據(jù)模型和存儲(chǔ)庫(kù)創(chuàng)建通用語(yǔ)義定義的方法和工具。通用業(yè)務(wù)詞匯表、數(shù)據(jù)沿襲和物理數(shù)據(jù)表示是傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)之間元數(shù)據(jù)集成的示例。這是一個(gè)不斷發(fā)展的領(lǐng)域,大數(shù)據(jù)帶來(lái)了新的挑戰(zhàn)(例如,記錄級(jí)數(shù)據(jù)沿襲與字段級(jí)數(shù)據(jù)沿襲)和新的機(jī)遇(使用本體來(lái)理解外部數(shù)據(jù))。 11、審計(jì)信息記錄和報(bào)告:用于監(jiān)視和測(cè)量數(shù)據(jù)價(jià)值、風(fēng)險(xiǎn)和數(shù)據(jù)治理有效性的組織過(guò)程。如果沒(méi)有適當(dāng)?shù)膶徍?,大?shù)據(jù)解決方案就有可能執(zhí)行不好定義良好的策略??绮块T不一致地執(zhí)行隱私策略可能會(huì)導(dǎo)致失敗點(diǎn)。心懷不滿的內(nèi)部人士可以利用這些故障點(diǎn),竊取客戶數(shù)據(jù)和見(jiàn)解。 圖1數(shù)據(jù)治理成熟度模型 下圖顯示了對(duì)全球信息服務(wù)提供商的數(shù)據(jù)治理的度量。我們并不總是測(cè)量所有的數(shù)據(jù)治理維度。例如,在圖2中,11個(gè)維度中有8個(gè)被認(rèn)為是重要的,并包含在評(píng)估中。對(duì)于每個(gè)測(cè)量維度,計(jì)算當(dāng)前和目標(biāo)到期日。這提供了使用數(shù)據(jù)治理程序來(lái)完成的差距的度量。 圖2數(shù)據(jù)治理成熟度-當(dāng)前和目標(biāo) 二、大數(shù)據(jù)和治理挑戰(zhàn) 大數(shù)據(jù)解決方案正在應(yīng)對(duì)許多數(shù)據(jù)治理挑戰(zhàn)。源數(shù)據(jù)來(lái)自需要治理的內(nèi)部和外部源: (1) 數(shù)據(jù)質(zhì)量與匹配; (2) 主數(shù)據(jù)索引; (3) 數(shù)據(jù)隱私的識(shí)別與保護(hù)。 對(duì)所有來(lái)源的數(shù)據(jù)進(jìn)行治理可能是一項(xiàng)挑戰(zhàn)。然而,如果數(shù)據(jù)不受控制,下游將面臨重大挑戰(zhàn)。下游挑戰(zhàn)是: 1、讀取時(shí)的治理:當(dāng)數(shù)據(jù)由外部源高速生成時(shí),在數(shù)據(jù)攝取期間應(yīng)用治理是一項(xiàng)挑戰(zhàn)。因此,這些數(shù)據(jù)包含了相當(dāng)數(shù)量的非政府?dāng)?shù)據(jù)。然后在使用數(shù)據(jù)時(shí)應(yīng)用治理。不幸的是,這種方法可能會(huì)導(dǎo)致混合來(lái)自企業(yè)數(shù)據(jù)倉(cāng)庫(kù)(EDW)和其他受管源的非受管數(shù)據(jù)和高度受管數(shù)據(jù)。要在使用前識(shí)別和管理數(shù)據(jù),即使使用是為了數(shù)據(jù)發(fā)現(xiàn)和搜索目的。數(shù)據(jù)科學(xué)家通常認(rèn)為,由于數(shù)據(jù)量大,數(shù)據(jù)質(zhì)量問(wèn)題無(wú)關(guān)緊要。但在需要發(fā)現(xiàn)和定義微觀探查時(shí)可能不是這樣。 2、湖中匹配:如果大數(shù)據(jù)來(lái)自不同的系統(tǒng),它通常會(huì)攜帶不匹配的數(shù)據(jù)。不匹配的數(shù)據(jù)不會(huì)鏈接到公共標(biāo)識(shí)。隨著數(shù)據(jù)的增長(zhǎng),匹配數(shù)據(jù)所需的工作也會(huì)隨之增加。通常,數(shù)據(jù)具有不同的數(shù)據(jù)源延遲級(jí)別,這使得在數(shù)據(jù)攝取期間進(jìn)行關(guān)聯(lián)具有挑戰(zhàn)性。另一種方法是在湖中傾倒不匹配的數(shù)據(jù),希望能在湖中匹配。然而,當(dāng)匹配在離源較近的地方進(jìn)行時(shí),匹配的成本會(huì)降低。 3、用于分析的數(shù)據(jù)相關(guān)性:大數(shù)據(jù)可以包含許多屬性,這些屬性經(jīng)常在許多觀察中重復(fù)。類似地,外部數(shù)據(jù)源(如社交媒體)可能承載的數(shù)據(jù)比洞察開(kāi)發(fā)所需的數(shù)據(jù)還要多。如果將整個(gè)原始數(shù)據(jù)集移動(dòng)到數(shù)據(jù)池中,即使對(duì)于廉價(jià)的Hadoop存儲(chǔ),其大小也會(huì)迅速增長(zhǎng)。對(duì)于一家電信公司來(lái)說(shuō),網(wǎng)絡(luò)使用探測(cè)器產(chǎn)生的數(shù)據(jù)接近每秒數(shù)千千兆位的情況并不少見(jiàn)。如果存儲(chǔ)一周,這些數(shù)據(jù)可能會(huì)爆炸成千兆字節(jié)。在這種情況下,長(zhǎng)時(shí)間存儲(chǔ)原始數(shù)據(jù)是不可取的。保存分析所需的數(shù)據(jù),并丟棄或存檔其余數(shù)據(jù)。 4、隱私:隱私政策通常通過(guò)使用個(gè)人識(shí)別信息(PII)來(lái)定義客戶隱私。然而,可以從其他數(shù)據(jù)中推斷出相當(dāng)數(shù)量的私人信息。以位置為例(在某個(gè)緯度和經(jīng)度上存在一個(gè)設(shè)備)。根據(jù)地理位置,原始數(shù)據(jù)可能被視為個(gè)人信用卡和社會(huì)保障數(shù)據(jù)。訪問(wèn)和使用此類數(shù)據(jù)需要明確的客戶許可。 5、記錄直到矛盾:隨著時(shí)間的推移,大多數(shù)數(shù)據(jù)都會(huì)變得陳舊。在美國(guó),每年約有三分之一的客戶更換住所。這會(huì)影響他們?cè)谔囟ǖ攸c(diǎn)的閑逛和興趣。使用與過(guò)去洞察相矛盾的新數(shù)據(jù)來(lái)建立變化的證據(jù)。分析系統(tǒng)應(yīng)該能夠根據(jù)經(jīng)過(guò)的時(shí)間和相互矛盾的證據(jù),對(duì)過(guò)去的見(jiàn)解賦予不同的權(quán)重。 三、數(shù)據(jù)湖驅(qū)動(dòng)發(fā)現(xiàn)中的數(shù)據(jù)轉(zhuǎn)換與質(zhì)量 數(shù)據(jù)湖是包含大量原始格式數(shù)據(jù)的大型存儲(chǔ)庫(kù)。會(huì)話和使用數(shù)據(jù)在存儲(chǔ)庫(kù)或數(shù)據(jù)湖中累積,并進(jìn)行分析,以獲得有關(guān)用戶的有用信息。例如,對(duì)產(chǎn)品和服務(wù)的行為和態(tài)度可以被發(fā)現(xiàn)。 大多數(shù)使用數(shù)據(jù)是結(jié)構(gòu)化的。例如,來(lái)自網(wǎng)絡(luò)的CDR數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一個(gè)很好的示例。然而,CDR數(shù)據(jù)可能來(lái)自不同的網(wǎng)絡(luò)源,每個(gè)網(wǎng)絡(luò)源都有自己的格式。要分析此數(shù)據(jù),請(qǐng)首先統(tǒng)一數(shù)據(jù),以便發(fā)現(xiàn)或預(yù)測(cè)引擎可以以相同的方式查看所有數(shù)據(jù)??赡苡衼G失的數(shù)據(jù),或者某些數(shù)據(jù)是以更長(zhǎng)的延遲檢索的。此外,對(duì)數(shù)據(jù)進(jìn)行校正以消除噪聲。 為每個(gè)實(shí)體提取的特征具有不同的壽命。所提取的某些特征是短暫的,因?yàn)樗鼈兣c將要發(fā)生的事件相關(guān),或者只在有限的時(shí)間段內(nèi)有效。一個(gè)例子是用戶很快采取的行動(dòng),例如去看電影、購(gòu)買產(chǎn)品或吃飯。這些行為通常在社交媒體上共享,隨著時(shí)間的推移,它們的有效性有限。 性別、年齡、婚姻狀況和種族是具有長(zhǎng)期價(jià)值的數(shù)據(jù)特征的例子。其中一些特征很難推斷或提取。如果用戶沒(méi)有明確說(shuō)明,年齡是一個(gè)開(kāi)放的研究問(wèn)題,因?yàn)楹茈y僅根據(jù)語(yǔ)言特征推斷。對(duì)這些特征的預(yù)測(cè)和推斷還應(yīng)包含預(yù)測(cè)者或所提取特征的置信水平的度量。在治理方面,添加變量度量的置信級(jí)別。 社交數(shù)據(jù)本質(zhì)上是非結(jié)構(gòu)化的,而且這些存儲(chǔ)庫(kù)中的大多數(shù)都對(duì)外部操作開(kāi)放。例如: (1) 外部因素:垃圾郵件、宣傳、鏈接濫用; (2) 內(nèi)部因素:不準(zhǔn)確、自我報(bào)告、格式問(wèn)題。 有多種方法可以提高包含在數(shù)據(jù)湖中的數(shù)據(jù)的質(zhì)量。評(píng)估和提高數(shù)據(jù)質(zhì)量有幾種方法,它們分為兩種基本方法: (1) 以社區(qū)為基礎(chǔ); (2) 機(jī)器監(jiān)督方法。 基于社區(qū)的方法在過(guò)去被證明是成功的,但是它們依賴于一個(gè)活躍的社區(qū)來(lái)管理其中包含的數(shù)據(jù)。維基百科和雅虎解答是大型社區(qū)管理數(shù)據(jù)的好例子。 在某些情況下,可以使用自動(dòng)方法檢測(cè)可能的質(zhì)量問(wèn)題,糾正問(wèn)題,然后自動(dòng)提高數(shù)據(jù)源的質(zhì)量。這方面的一個(gè)例子是,多個(gè)自動(dòng)代理檢查新的維基百科文章以發(fā)現(xiàn)可能的垃圾郵件,多個(gè)代理檢測(cè)機(jī)器人在Facebook和Twitter上的發(fā)布。 其他影響社交媒體數(shù)據(jù)質(zhì)量的常見(jiàn)問(wèn)題包括諷刺、新詞(新造詞)、縮寫、俚語(yǔ)等。通常,特定于領(lǐng)域的本體用于解析數(shù)據(jù)以理解和翻譯這些詞,并跟上趨勢(shì)和其他變化。 四、大數(shù)據(jù)治理技術(shù)架構(gòu) 企業(yè)大數(shù)據(jù)的治理至關(guān)重要,下圖顯示了大數(shù)據(jù)治理體系結(jié)構(gòu)的四個(gè)部分: (1) 數(shù)據(jù)源管理:包括所有原始數(shù)據(jù)、著陸區(qū)、發(fā)現(xiàn)區(qū)和協(xié)調(diào)區(qū)。使用平面文件、Hadoop、columnar或關(guān)系數(shù)據(jù)存儲(chǔ)來(lái)存儲(chǔ)數(shù)據(jù); (2) 信息結(jié)構(gòu):提供治理的策略和設(shè)計(jì)以及組織數(shù)據(jù)的工具。治理的主要存儲(chǔ)庫(kù)是信息治理目錄。 (3) 安全性:通過(guò)使用信息結(jié)構(gòu)中設(shè)置的策略來(lái)執(zhí)行安全性。它使用標(biāo)準(zhǔn)的安全工具,如LDAP、Kerberos、HTTPS、證書等。 (4) 分析、報(bào)告和消費(fèi):提供大數(shù)據(jù)治理監(jiān)控情況的分析。 圖3 面向大數(shù)據(jù)的治理體系技術(shù)架構(gòu) 五、綜述 對(duì)于企業(yè)來(lái)說(shuō),數(shù)據(jù)的價(jià)值就是獲得洞察力并做出正確的決策。管理企業(yè)數(shù)據(jù)的治理至關(guān)重要,如果沒(méi)有數(shù)據(jù)治理,很難發(fā)揮大數(shù)據(jù)的價(jià)值。
|
|
來(lái)自: 數(shù)據(jù)治理精英館 > 《待分類》