日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

一定重點(diǎn)關(guān)注!人工智能技術(shù)將加速企業(yè)數(shù)據(jù)的智能化治理

 數(shù)據(jù)治理精英館 2021-12-24

      數(shù)據(jù)治理最新理念:

      ★數(shù)據(jù)治理的目的不是只為了管好數(shù)據(jù),而是讓要用數(shù)據(jù)的人(如:數(shù)據(jù)科學(xué)家)隨時(shí)能找到他要的數(shù)據(jù)。

      ★數(shù)據(jù)治理不是只做元數(shù)據(jù)管理和數(shù)據(jù)質(zhì)量管理,更關(guān)鍵的是要建立數(shù)據(jù)資產(chǎn)目錄。

      ★沒有AI和Machine Learning的技術(shù)是無(wú)法建立真正的數(shù)據(jù)資產(chǎn)目錄的。

      ★靠開源是無(wú)法開發(fā)出具有AI和機(jī)器學(xué)習(xí)能力的數(shù)據(jù)目錄平臺(tái)的。

      一、概述

      當(dāng)前,數(shù)據(jù)治理主要傾向于“組織”:包括成立數(shù)據(jù)治理委員會(huì),設(shè)置數(shù)據(jù)所有者和數(shù)據(jù)管理的角色,同時(shí)制定用于定義和批準(zhǔn)數(shù)據(jù)策略的流程和制度。眾多情況下,靠的是“人海戰(zhàn)術(shù)”,例如手動(dòng)采集和存儲(chǔ)元數(shù)據(jù)。通常這些活動(dòng)的重點(diǎn)就所謂的“數(shù)據(jù)生命周期”管理,即從數(shù)據(jù)采集、存儲(chǔ)到交付到數(shù)據(jù)倉(cāng)庫(kù)或決策支持系統(tǒng)的過程。在數(shù)字化時(shí)代,數(shù)據(jù)類型越來(lái)越多,數(shù)據(jù)體量越來(lái)越大,將數(shù)據(jù)治理活動(dòng)限制在固定的組織機(jī)構(gòu)內(nèi)或無(wú)需思考的手工任務(wù)上,很難實(shí)現(xiàn)數(shù)據(jù)治理關(guān)鍵目標(biāo),例如:

      ■擴(kuò)大數(shù)據(jù)可用性和提高數(shù)據(jù)訪問便利性,使更多數(shù)據(jù)消費(fèi)者能夠查找和訪問共享數(shù)據(jù)資產(chǎn);

      ■標(biāo)準(zhǔn)化數(shù)據(jù)語(yǔ)義,為數(shù)據(jù)使用者如何使用共享數(shù)據(jù)資產(chǎn)提供共同的理解;

      ■供應(yīng)可測(cè)量的高質(zhì)量數(shù)據(jù),用戶高度信任數(shù)據(jù)的可靠性。

      數(shù)據(jù)治理目標(biāo)有一個(gè)共同的驅(qū)動(dòng)因素:數(shù)據(jù)消費(fèi)或數(shù)據(jù)使用。然而,無(wú)法實(shí)現(xiàn)這些基本目標(biāo)會(huì)降低企業(yè)數(shù)據(jù)有效共享和利用數(shù)據(jù)的能力,更不能解決來(lái)自企業(yè)內(nèi)部業(yè)務(wù)策略變化、外部法律法規(guī)或符合行業(yè)標(biāo)準(zhǔn)性要求的數(shù)據(jù)遵從性和可審計(jì)性。

      行業(yè)趨勢(shì)表明:企業(yè)對(duì)定義數(shù)據(jù)戰(zhàn)略以及對(duì)數(shù)據(jù)資產(chǎn)獲取、轉(zhuǎn)換、資產(chǎn)化、共享和隱私保護(hù)實(shí)施更加關(guān)注。數(shù)據(jù)治理越來(lái)越多地包含將傳統(tǒng)的理解數(shù)據(jù)資產(chǎn)的使用和統(tǒng)一業(yè)務(wù)術(shù)語(yǔ)與新出現(xiàn)的數(shù)據(jù)前景的關(guān)鍵需求包括盤點(diǎn)、分類和記錄整個(gè)企業(yè)的數(shù)據(jù)資產(chǎn)相結(jié)合的解決方案,以指導(dǎo)數(shù)據(jù)的可知、可信和可用。這意味著確保數(shù)據(jù)資產(chǎn)的效能——保證數(shù)據(jù)資產(chǎn)的一致性,對(duì)共享數(shù)據(jù)資產(chǎn)的訪問是透明的,以及向數(shù)據(jù)消費(fèi)者提供他們?cè)谶x擇和使用數(shù)據(jù)資產(chǎn)時(shí)所需要的所有信息。

      機(jī)器學(xué)習(xí)能力的提升提高了數(shù)據(jù)目錄可用于發(fā)展綜合數(shù)據(jù)治理策略的方式。智能數(shù)據(jù)資產(chǎn)目錄有助于數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)使用者協(xié)同工作,減少數(shù)據(jù)管理者在描述數(shù)據(jù)方面的負(fù)擔(dān)。擴(kuò)大數(shù)據(jù)的可用性和可訪問性是提高企業(yè)數(shù)據(jù)資產(chǎn)意識(shí)的重要因素。大多數(shù)企業(yè)都有各種各樣的數(shù)據(jù),但是,當(dāng)沒有數(shù)據(jù)資產(chǎn)清單時(shí),這些資產(chǎn)實(shí)際上是隱藏的。這意味著需要一個(gè)數(shù)據(jù)盤點(diǎn)過程來(lái)遍尋整個(gè)企業(yè),識(shí)別并分類公司數(shù)據(jù)資產(chǎn)?;跈C(jī)器學(xué)習(xí)的的元數(shù)據(jù)系統(tǒng)可以掃描每個(gè)數(shù)據(jù)資產(chǎn)的內(nèi)容,無(wú)論是結(jié)構(gòu)化的、半結(jié)構(gòu)化的還是非結(jié)構(gòu)化的,都能夠推斷數(shù)據(jù)資產(chǎn)的元數(shù)據(jù),甚至根據(jù)嵌入內(nèi)容的敏感性對(duì)數(shù)據(jù)資產(chǎn)進(jìn)行分類。從掃描推斷的元數(shù)據(jù)可以根據(jù)已知的參考領(lǐng)域和元數(shù)據(jù)進(jìn)行分類和標(biāo)簽,并與定義的業(yè)務(wù)術(shù)語(yǔ)保持一致,這有助于標(biāo)準(zhǔn)化語(yǔ)義和提供對(duì)共享數(shù)據(jù)的共同理解

      在智能數(shù)據(jù)資產(chǎn)目錄中收集的可搜索的公司數(shù)據(jù)資產(chǎn)清單增強(qiáng)了數(shù)據(jù)的可訪問性和可用性。使數(shù)據(jù)使用者能夠通過目錄或標(biāo)簽搜索數(shù)據(jù)資產(chǎn),使廣大數(shù)據(jù)使用者能夠找到最能滿足其需求的數(shù)據(jù)集。智能數(shù)據(jù)資產(chǎn)目錄可用于共享不同類型的元數(shù)據(jù),包括:

      ■描述源系統(tǒng)結(jié)構(gòu)的物理元數(shù)據(jù),如表和字段。

      ■描述語(yǔ)義信息的邏輯元數(shù)據(jù),如數(shù)據(jù)庫(kù)描述、數(shù)據(jù)質(zhì)量評(píng)估和相關(guān)的數(shù)據(jù)管理策略。

      ■描述如何在各種業(yè)務(wù)場(chǎng)景中使用數(shù)據(jù)資產(chǎn)的行為元數(shù)據(jù)。行為元數(shù)據(jù)可能是最重要的,因?yàn)樗梢宰詣?dòng)洞察系統(tǒng)中的每個(gè)對(duì)象,比如模型、表和超級(jí)用戶的使用頻度。

      通過簡(jiǎn)化數(shù)據(jù)發(fā)現(xiàn)、自動(dòng)推斷元數(shù)據(jù)、提高這些推斷的準(zhǔn)確性,以及提供業(yè)務(wù)術(shù)語(yǔ)表、數(shù)據(jù)元素定義、數(shù)據(jù)血緣和數(shù)據(jù)資產(chǎn)、數(shù)據(jù)義務(wù)(例如隱私保護(hù))的可見性,有助于提供正確的數(shù)據(jù)資產(chǎn),并簡(jiǎn)化數(shù)據(jù)使用者查找和使用公司數(shù)據(jù)資產(chǎn)的能力。更大程度發(fā)揮數(shù)據(jù)資產(chǎn)的價(jià)值。

      二、AI或機(jī)器學(xué)習(xí)與數(shù)據(jù)治理的關(guān)系

      隨著大數(shù)據(jù)在各個(gè)行業(yè)領(lǐng)域應(yīng)用的不斷深入,數(shù)據(jù)作為基礎(chǔ)性戰(zhàn)略資源的地位日益凸顯,如何構(gòu)建大數(shù)據(jù)環(huán)境下的數(shù)據(jù)資產(chǎn),以最大程度發(fā)揮數(shù)據(jù)要素資產(chǎn)價(jià)值成為企業(yè)關(guān)注的焦點(diǎn),數(shù)據(jù)治理也隨之成為數(shù)字經(jīng)濟(jì)和大數(shù)據(jù)生態(tài)中的新熱點(diǎn)。與此同時(shí),在政策、技術(shù)、需求等多重因素的推動(dòng)下,以自動(dòng)駕駛、智能客服、語(yǔ)音識(shí)別為代表的人工智能應(yīng)用快速興起,AI已經(jīng)成為全球科技巨頭的布局重點(diǎn)。那么,當(dāng)數(shù)據(jù)治理遇上AI(人工智能),將碰撞出怎樣的火花,又如何相互促進(jìn)和發(fā)展呢?

      1、數(shù)據(jù)治理是AI應(yīng)用和發(fā)展的前提

      當(dāng)前,企業(yè)對(duì)全面數(shù)據(jù)治理的需求從未如此強(qiáng)烈。監(jiān)管機(jī)構(gòu)希望企業(yè)能更加清晰地了解數(shù)據(jù),對(duì)它進(jìn)行有效的管控;企業(yè)管理層希望理清數(shù)據(jù)資產(chǎn),降低數(shù)據(jù)應(yīng)用的復(fù)雜性,對(duì)企業(yè)進(jìn)行更高效的管理;企業(yè)員工也開始認(rèn)識(shí)到數(shù)據(jù)的重要性,更多地采用數(shù)據(jù)驅(qū)動(dòng)的方式來(lái)開展工作。數(shù)據(jù)治理正迅速發(fā)展成一種企業(yè)核心策略,只有做好數(shù)據(jù)治理,讓數(shù)據(jù)更加準(zhǔn)確完整,并且安全合規(guī),才能釋放出數(shù)據(jù)的無(wú)限潛能,挖掘出更多有價(jià)值的數(shù)據(jù)應(yīng)用。

      人工智能技術(shù)在應(yīng)用和實(shí)踐中,確保數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全是最基礎(chǔ)的底層保障。由于人工智能的落地應(yīng)用效果會(huì)受到數(shù)據(jù)質(zhì)量和安全的影響,更多的企業(yè)開始反思并轉(zhuǎn)而去推動(dòng)數(shù)據(jù)質(zhì)量和安全的提升,建立好的數(shù)據(jù)環(huán)境,再進(jìn)行人工智能應(yīng)用的同步研發(fā)。大數(shù)據(jù)是人工智能技術(shù)研發(fā)、訓(xùn)練的關(guān)鍵,是人工智能長(zhǎng)期發(fā)展的重要保障。只有當(dāng)人工智能系統(tǒng)能夠獲取更為準(zhǔn)確、及時(shí)、一致的高質(zhì)量數(shù)據(jù),才能提供更有效、有用、精準(zhǔn)性高的智能化服務(wù)。

      人工智能發(fā)展的另一個(gè)重點(diǎn)保障就是數(shù)據(jù)安全,人工智能系統(tǒng)的基礎(chǔ)是大數(shù)據(jù),要對(duì)外提供服務(wù),就會(huì)涉及數(shù)據(jù)的安全保護(hù),在這個(gè)過程中,一系列的數(shù)據(jù)安全防護(hù)手段是必不可少的,如數(shù)據(jù)脫敏管理,對(duì)敏感信息的風(fēng)險(xiǎn)評(píng)估、使用監(jiān)控,對(duì)數(shù)據(jù)的泄露檢測(cè),數(shù)據(jù)庫(kù)保密檢查等。人工智能需要海量的數(shù)據(jù),人工智能技術(shù)的進(jìn)步取決于各種來(lái)源數(shù)據(jù)的可用性,如何確保這些數(shù)據(jù)的安全性與保證用戶數(shù)據(jù)的隱私性是數(shù)據(jù)治理的重要領(lǐng)域。同時(shí),通過對(duì)業(yè)務(wù)數(shù)據(jù)應(yīng)用語(yǔ)義計(jì)算、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、知識(shí)圖譜、認(rèn)知計(jì)算等人工智能技術(shù),也可以促進(jìn)企業(yè)數(shù)據(jù)安全保障體系完善。

      2、AI是智能化數(shù)據(jù)治理的有效保障

      經(jīng)過多年的理論更新、技術(shù)演進(jìn)和應(yīng)用實(shí)踐,數(shù)據(jù)治理從概念到技術(shù)已經(jīng)發(fā)生了很多變化。特別是隨著人工智能的興起,數(shù)據(jù)治理技術(shù)和人工智能技術(shù)有效的融合在一起,使智能化數(shù)據(jù)治理成為可能。數(shù)據(jù)治理工作中,通過對(duì)大數(shù)據(jù)應(yīng)用機(jī)器學(xué)習(xí)技術(shù),作數(shù)據(jù)挖掘和分析,從而識(shí)別哪些是用戶隱私性數(shù)據(jù)、哪些數(shù)據(jù)可能有異常,一旦數(shù)據(jù)特征被確認(rèn),打上標(biāo)簽,未來(lái)再做數(shù)據(jù)管理時(shí),就可以使用元數(shù)據(jù)管理的方法機(jī)制,對(duì)外提供服務(wù)。比如當(dāng)碰到涉及的某特殊標(biāo)記數(shù)據(jù),就會(huì)有相應(yīng)的流程啟動(dòng),或在相關(guān)的數(shù)據(jù)對(duì)外服務(wù)提供過程中,自動(dòng)識(shí)別數(shù)據(jù)涉及的個(gè)人隱私,避免引起政策方面的風(fēng)險(xiǎn)。通過AI技術(shù)的應(yīng)用,可以增強(qiáng)數(shù)據(jù)安全管理和元數(shù)據(jù)管理的能力。

      在開展數(shù)據(jù)質(zhì)量核查過程中,機(jī)器識(shí)別技術(shù)配合預(yù)置的質(zhì)量核查規(guī)則進(jìn)行核查,僅針對(duì)少量核心核查規(guī)則,從大數(shù)據(jù)中選取訓(xùn)練數(shù)據(jù)樣本,經(jīng)過預(yù)處理,利用機(jī)器學(xué)習(xí)算法進(jìn)行深度分析,提取公共特征和模型,可以定位數(shù)據(jù)質(zhì)量原因,做數(shù)據(jù)質(zhì)量問題的預(yù)測(cè),并進(jìn)一步形成知識(shí)庫(kù)。這樣就可以更進(jìn)一步增強(qiáng)大數(shù)據(jù)生態(tài)下數(shù)據(jù)質(zhì)量管理的能力。

      對(duì)于數(shù)據(jù)模型的管理,機(jī)器學(xué)習(xí)技術(shù)可用來(lái)分析數(shù)據(jù)庫(kù)中數(shù)據(jù)實(shí)體的引用熱度,通過聚類算法自動(dòng)識(shí)別數(shù)據(jù)模型間的內(nèi)在關(guān)系,還可以用于數(shù)據(jù)模型質(zhì)量的檢測(cè)和評(píng)估。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的管理,像文檔內(nèi)容,圖像,音頻,視頻,可以充分利用人工智能中的自然語(yǔ)言處理、圖像識(shí)別、語(yǔ)音識(shí)別、視頻處理等技術(shù)進(jìn)行實(shí)現(xiàn)。

      3、AI在數(shù)據(jù)治理中的應(yīng)用

      當(dāng)前,企業(yè)數(shù)據(jù)治理將逐步發(fā)展為基于大數(shù)據(jù)的數(shù)據(jù)治理。大數(shù)據(jù)包括社交數(shù)據(jù),機(jī)器數(shù)據(jù)等,大數(shù)據(jù)對(duì)傳統(tǒng)數(shù)據(jù)治理工作帶來(lái)很多的擴(kuò)展。在政策和流程上,大數(shù)據(jù)治理應(yīng)覆蓋大數(shù)據(jù)的獲取、處理、存儲(chǔ)、安全等環(huán)節(jié);在數(shù)據(jù)生命周期管理各階段,如數(shù)據(jù)存儲(chǔ)、保留、歸檔、處置時(shí),要考慮大數(shù)據(jù)保存時(shí)間與存儲(chǔ)空間的平衡;大數(shù)據(jù)量大,因此應(yīng)識(shí)別對(duì)業(yè)務(wù)有關(guān)鍵影響的數(shù)據(jù)元素,檢查和保證數(shù)據(jù)質(zhì)量;大數(shù)據(jù)還需要定義與其內(nèi)容相關(guān)的元數(shù)據(jù),需與傳統(tǒng)數(shù)據(jù)定義標(biāo)準(zhǔn)保持一致,術(shù)語(yǔ)字典應(yīng)包含大數(shù)據(jù)的術(shù)語(yǔ),需要為非結(jié)構(gòu)化數(shù)據(jù)提供分類、語(yǔ)義支持,Hadoop、NoSQL數(shù)據(jù)庫(kù)的技術(shù)元數(shù)據(jù)也同樣需要納入元數(shù)據(jù)存儲(chǔ)庫(kù)管理;此外,在隱私方面,應(yīng)考慮社交數(shù)據(jù)的隱私保護(hù)需求,制定相應(yīng)政策,還要將大數(shù)據(jù)治理與企業(yè)內(nèi)外部風(fēng)險(xiǎn)管控需求建立聯(lián)系。

數(shù)字化時(shí)代,大數(shù)據(jù)治理和人工智能技術(shù)的深度結(jié)合,將在數(shù)據(jù)治理領(lǐng)域發(fā)揮重要的作用:

      ■自動(dòng)化數(shù)據(jù)發(fā)現(xiàn)和分類

      機(jī)器學(xué)習(xí)數(shù)據(jù)目錄可以為自動(dòng)化數(shù)據(jù)發(fā)現(xiàn)過程提供種子, 提供數(shù)據(jù)結(jié)構(gòu)、類型和敏感性的分類。發(fā)現(xiàn)過程的早期迭代的結(jié)果可以提交給數(shù)據(jù)管理員和主題域業(yè)務(wù)專家,他們將審查推論,在必要時(shí)進(jìn)行更正,并提供額外的信息類別和標(biāo)簽。

      機(jī)器學(xué)習(xí)算法將從這些人類互動(dòng)中學(xué)習(xí),以完善發(fā)現(xiàn)分類過程,提高推理逼真度,同時(shí)減少人類交互的需要。

      ■提供數(shù)據(jù)消費(fèi)者建議

      不同的數(shù)據(jù)使用者可以使用智能數(shù)據(jù)資產(chǎn)目錄搜索滿足需求的數(shù)據(jù)資產(chǎn)。機(jī)器學(xué)習(xí)算法利用主動(dòng)學(xué)習(xí)通過結(jié)合用戶選擇和動(dòng)作來(lái)迭代精煉預(yù)測(cè)模型,以改善搜索結(jié)果和推薦,將搜索結(jié)果顯示給不同類型的數(shù)據(jù)消費(fèi)者。

      可以利用機(jī)器學(xué)習(xí)技術(shù)確認(rèn)現(xiàn)有的業(yè)務(wù)術(shù)語(yǔ)定義,預(yù)測(cè)哪些有關(guān)數(shù)據(jù)資產(chǎn)可能滿足數(shù)據(jù)消費(fèi)者的需求,以便更快地將正確的數(shù)據(jù)資產(chǎn)提供給正確的用戶,以滿足他們的報(bào)告和分析需求。

      ■評(píng)估數(shù)據(jù)的敏感性和遵從性

      不同的法律對(duì)個(gè)人隱私數(shù)據(jù)有不同的定義,個(gè)人信息被認(rèn)為是“個(gè)人”或“私人”的,通過與人類的交互,智能數(shù)據(jù)發(fā)現(xiàn)可以學(xué)會(huì)自動(dòng)將數(shù)據(jù)屬性分類為個(gè)人/私人數(shù)據(jù),并確定哪些數(shù)據(jù)資產(chǎn)包含敏感數(shù)據(jù),這些數(shù)據(jù)必須遵守規(guī)范。

      ■識(shí)別高價(jià)值的元數(shù)據(jù)

      企業(yè)使用機(jī)器學(xué)習(xí),分析員工使用過哪些數(shù)據(jù),為員工生成畫像,打上特定的標(biāo)簽,來(lái)做數(shù)據(jù)的推薦和優(yōu)化員工對(duì)數(shù)據(jù)應(yīng)用的搜索結(jié)果。

      這些描述員工數(shù)據(jù)消費(fèi)形為、偏好特征的元數(shù)據(jù)信息,將成為企業(yè)的核心數(shù)據(jù)資產(chǎn),并發(fā)揮更大的洞察價(jià)值。

      ■智能化數(shù)據(jù)質(zhì)量管理

      機(jī)器學(xué)習(xí)可以識(shí)別信息系統(tǒng)中的異常數(shù)據(jù),那它也可以檢測(cè)工業(yè)制成品中的異常情況。

      企業(yè)可以通過將實(shí)體物品生產(chǎn)過程數(shù)字化,然后使用經(jīng)過訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)來(lái)識(shí)別不符合標(biāo)準(zhǔn)或規(guī)格的產(chǎn)品數(shù)據(jù),挑出異常數(shù)據(jù),從而部分替代人類檢測(cè)員的工作。

      ■數(shù)據(jù)共享和數(shù)據(jù)服務(wù)

      企業(yè)可以充分利用人工智能技術(shù),以信息化、自動(dòng)化方式,共享和開放一部分?jǐn)?shù)據(jù)或數(shù)據(jù)加工結(jié)果,對(duì)外提供服務(wù),提升企業(yè)競(jìng)爭(zhēng)力。

      最典型的就是現(xiàn)在各種客戶服務(wù)機(jī)器人,可以使用自然語(yǔ)言處理技術(shù)處理回答客戶提出的常見問題,并隨著時(shí)間的推移提高答案的質(zhì)量。

      三、人工智能在大數(shù)據(jù)治理系統(tǒng)的應(yīng)用

      基于人機(jī)交互的智能大數(shù)據(jù)治理系統(tǒng)的目的是建立人機(jī)結(jié)合的數(shù)據(jù)治理流程,同時(shí)結(jié)合基礎(chǔ)知識(shí)庫(kù)可以實(shí)現(xiàn)針對(duì)不同類型數(shù)據(jù)的智能處理,包括數(shù)據(jù)的自動(dòng)感知、智能推薦轉(zhuǎn)換、數(shù)據(jù)豐富以及團(tuán)隊(duì)協(xié)作等功能。

      基于人機(jī)交互的智能大數(shù)據(jù)治理系統(tǒng),利用統(tǒng)一的門戶系統(tǒng)進(jìn)行數(shù)據(jù)治理項(xiàng)目和數(shù)據(jù)源的管理,其中數(shù)據(jù)源包括,結(jié)構(gòu)化數(shù)據(jù)源和非結(jié)構(gòu)化數(shù)據(jù)源。同樣數(shù)據(jù)的治理過程也分為結(jié)構(gòu)化數(shù)據(jù)治理和非結(jié)構(gòu)化數(shù)據(jù)治理。結(jié)構(gòu)化數(shù)據(jù)治理主要是基于機(jī)器學(xué)習(xí)算法,智能感知每一列數(shù)據(jù)的數(shù)據(jù)類型,并根據(jù)數(shù)據(jù)類型進(jìn)行智能的數(shù)據(jù)治理操作推薦。完成對(duì)數(shù)據(jù)規(guī)范化和清洗后,基于數(shù)據(jù)豐富知識(shí)庫(kù)智能的進(jìn)行語(yǔ)義層面的數(shù)據(jù)豐富操作。非結(jié)構(gòu)化數(shù)據(jù)治理主要基于自然語(yǔ)言處理算法,自動(dòng)的對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行命名實(shí)體的提取,以及各實(shí)體之間關(guān)系的提取,并可根據(jù)提取的數(shù)據(jù)類型,自動(dòng)完成規(guī)范化的數(shù)據(jù)變換,人工可修正機(jī)器提取的實(shí)體和關(guān)系。同時(shí),對(duì)非結(jié)構(gòu)化數(shù)據(jù)也會(huì)基于數(shù)據(jù)豐富知識(shí)庫(kù)智能的進(jìn)行語(yǔ)義層面的數(shù)據(jù)豐富關(guān)聯(lián)。治理后的數(shù)據(jù),經(jīng)過數(shù)據(jù)發(fā)布流程,可對(duì)數(shù)據(jù)融合系統(tǒng)或其他數(shù)據(jù)分析系統(tǒng)提供,可直接使用的數(shù)據(jù)。

      基于人機(jī)交互的智能大數(shù)據(jù)治理系統(tǒng)的核心功能包括統(tǒng)一門戶、項(xiàng)目管理、結(jié)構(gòu)化數(shù)據(jù)治理、非結(jié)構(gòu)化數(shù)據(jù)治理、算法庫(kù)、知識(shí)庫(kù)、數(shù)據(jù)發(fā)布和運(yùn)維管理七大功能。

      統(tǒng)一門戶是基于人機(jī)交互的智能大數(shù)據(jù)治理系統(tǒng)的人機(jī)交互接口,主要實(shí)現(xiàn)數(shù)據(jù)治理項(xiàng)目管理和數(shù)據(jù)源管理。

      項(xiàng)目管理實(shí)現(xiàn)數(shù)據(jù)治理任務(wù)的拆解、進(jìn)度跟蹤和人員分配,具體包括項(xiàng)目的和任務(wù)的增刪改查。在創(chuàng)建任務(wù)時(shí),可選擇參與本次任務(wù)的人員進(jìn)行治理任務(wù)的分工與協(xié)作。

      數(shù)據(jù)源管理實(shí)現(xiàn)數(shù)據(jù)源的導(dǎo)入和存儲(chǔ),可將待整理的原始數(shù)據(jù)進(jìn)行備份,具體包括數(shù)據(jù)源的導(dǎo)入、列表、維護(hù)和詳情。在數(shù)據(jù)源導(dǎo)入時(shí),可設(shè)定數(shù)據(jù)源的密級(jí)、權(quán)限、置信度、標(biāo)簽、來(lái)源等屬性信息。數(shù)據(jù)源的標(biāo)簽,可根據(jù)機(jī)器學(xué)習(xí)算法自動(dòng)生成,也支持業(yè)務(wù)人員手動(dòng)添加。

      結(jié)構(gòu)化數(shù)據(jù)治理是基于機(jī)器學(xué)習(xí)算法,對(duì)結(jié)構(gòu)化類型的數(shù)據(jù)源進(jìn)行數(shù)據(jù)識(shí)別、數(shù)據(jù)重組、數(shù)據(jù)清洗、數(shù)據(jù)修復(fù)、數(shù)據(jù)豐富、數(shù)據(jù)校驗(yàn)等數(shù)據(jù)治理操作。數(shù)據(jù)采樣是基于數(shù)據(jù)采樣算法,按行對(duì)數(shù)據(jù)進(jìn)行智能的異常點(diǎn)采樣,可得到相互獨(dú)立、完全窮盡的異常點(diǎn)。數(shù)據(jù)識(shí)別是自動(dòng)對(duì)數(shù)據(jù)進(jìn)行類型的識(shí)別,不僅可以識(shí)別基礎(chǔ)類型,如字符串、整數(shù)、小數(shù),還可以智能的識(shí)別數(shù)據(jù)的業(yè)務(wù)類型,如住址、身份證、手機(jī)號(hào)、銀行卡等。基于人機(jī)交互的智能大數(shù)據(jù)治理系統(tǒng)具有自主學(xué)習(xí)的能力,可以自動(dòng)的記憶用戶業(yè)務(wù)的專用數(shù)據(jù)類型,如交易號(hào)等。隨著人員的使用,系統(tǒng)可自動(dòng)識(shí)別的數(shù)據(jù)類型會(huì)越來(lái)越多,識(shí)別準(zhǔn)確率會(huì)越來(lái)越高。

      智能推薦是指對(duì)不同的數(shù)據(jù)對(duì)象和數(shù)據(jù)類型,系統(tǒng)可理解數(shù)據(jù)的語(yǔ)義推薦最合適的數(shù)據(jù)轉(zhuǎn)換操作。如針對(duì)列數(shù)據(jù)、行數(shù)據(jù)和值數(shù)據(jù)(單元格數(shù)據(jù))會(huì)提供不同的建議命令,針對(duì)每種模式下不同的數(shù)據(jù)類型,如日期型數(shù)據(jù)、電話數(shù)據(jù),系統(tǒng)同樣會(huì)推薦最合適的變換操作。命令集是針對(duì)某一具體變換要求的數(shù)據(jù)處理指令,通常需要調(diào)用機(jī)器學(xué)習(xí)算法。

      非結(jié)構(gòu)化數(shù)據(jù)治理是基于NLP算法,從非結(jié)構(gòu)化數(shù)據(jù)源提取實(shí)體和關(guān)系的數(shù)據(jù)治理流程。文檔解析是將原始文檔,解析為可在線標(biāo)注的模式,該模式下,可人工修正或提取文檔中的實(shí)體和關(guān)系。實(shí)體識(shí)別是在文檔解析后,可根據(jù)NLP算法和參數(shù),識(shí)別文檔中的實(shí)體數(shù)據(jù),實(shí)體識(shí)別后,通常需要對(duì)其進(jìn)行規(guī)范化處理。關(guān)系提取與實(shí)體識(shí)別的原理類似,主要是調(diào)用的算法和參數(shù)不同,同時(shí),輸出的結(jié)果是實(shí)體間的關(guān)系(事件信息)。人工修正是對(duì)系統(tǒng)識(shí)別結(jié)果的校驗(yàn)與確認(rèn)。

      算法庫(kù)是系統(tǒng)的算法平臺(tái),是系統(tǒng)最為核心的部件。算法讓數(shù)據(jù)治理從豐富數(shù)據(jù)層面上升到語(yǔ)義層面,為數(shù)據(jù)治理過程服務(wù),讓數(shù)據(jù)治理過程更高效、更智能。包括NLP算法、推薦算法和豐富算法等算法模型。

      數(shù)據(jù)知識(shí)庫(kù)是輔助算法對(duì)數(shù)據(jù)進(jìn)行語(yǔ)義層面的擴(kuò)展和豐富。包括位置庫(kù)、標(biāo)準(zhǔn)規(guī)范庫(kù)和各類標(biāo)注語(yǔ)料庫(kù)。位置庫(kù)包括網(wǎng)絡(luò)空間的所有可與地理位置進(jìn)行關(guān)聯(lián)的知識(shí)庫(kù),如IP地址、MAC地址、基站、WIFI、手機(jī)等網(wǎng)絡(luò)實(shí)體所對(duì)應(yīng)的物理位置。標(biāo)準(zhǔn)規(guī)范是各類數(shù)據(jù)的清洗與規(guī)劃,如全球手機(jī)地域編碼等。標(biāo)準(zhǔn)的語(yǔ)料庫(kù),如中、英、維、阿拉伯語(yǔ)等機(jī)器翻譯所需語(yǔ)料。

      數(shù)據(jù)發(fā)布是指對(duì)治理后的數(shù)據(jù)進(jìn)行輸出的過程。包括數(shù)據(jù)的共享交換與數(shù)據(jù)下載輸出,也包括與數(shù)據(jù)融合或數(shù)據(jù)分析系統(tǒng)進(jìn)行在線數(shù)據(jù)傳輸?shù)目偩€接口。

      運(yùn)維管理是系統(tǒng)的輔助功能模塊,實(shí)現(xiàn)系統(tǒng)的用戶管理、系統(tǒng)監(jiān)控和日志管理。用戶管理包括用戶的維護(hù)以及用戶的認(rèn)證與授權(quán)。系統(tǒng)監(jiān)控包括業(yè)務(wù)的狀態(tài)監(jiān)控與管理。日志管理包括系統(tǒng)日志和用戶操作日志,日志一方面用于安全審計(jì),一方面用于算法分析學(xué)習(xí),讓系統(tǒng)更智能。

      用戶通過統(tǒng)一門戶訪問和使用基于人機(jī)交互的智能大數(shù)據(jù)治理系統(tǒng),在登錄過程中需要從認(rèn)證授權(quán)服務(wù)器獲得訪問令牌和權(quán)限,整個(gè)訪問使用過程中的操作,均被運(yùn)維管理服務(wù)器進(jìn)行記錄。

      用戶登錄后,可選擇進(jìn)行整理的數(shù)據(jù)源,系統(tǒng)根據(jù)數(shù)據(jù)源的類型自動(dòng)啟動(dòng)結(jié)構(gòu)化數(shù)據(jù)治理任務(wù)或非結(jié)構(gòu)化數(shù)據(jù)治理任務(wù)。數(shù)據(jù)治理的過程中,按需調(diào)用算法庫(kù)和數(shù)據(jù)豐富知識(shí)庫(kù)。治理完成后進(jìn)行數(shù)據(jù)的發(fā)布操作,為下游系統(tǒng)提供治理后的數(shù)據(jù)。

      四、基于人工智能的數(shù)據(jù)治理展望

      隨著數(shù)字時(shí)代的到來(lái),數(shù)據(jù)治理和人工智能研究研發(fā)的關(guān)系日漸緊密。近年來(lái),一些互聯(lián)網(wǎng)企業(yè)在享受人工智能技術(shù)紅利的同時(shí),存在數(shù)據(jù)認(rèn)知不清、數(shù)據(jù)治理不當(dāng)、客戶隱私數(shù)據(jù)使用不合規(guī)等現(xiàn)象,出現(xiàn)了不少負(fù)面事件。要防止大數(shù)據(jù)和人工智能的濫用和失控,應(yīng)該從人工智能的源頭——大數(shù)據(jù)上開始建立科學(xué)的數(shù)據(jù)治理體系,包括數(shù)據(jù)的質(zhì)量規(guī)范、制度政策、管理流程、職責(zé)定位和技術(shù)管控工具。數(shù)據(jù)治理體系是對(duì)商業(yè)價(jià)值和用戶隱私,以及企業(yè)長(zhǎng)期利益和短期利益選擇的基礎(chǔ),建立數(shù)據(jù)治理體系是一個(gè)長(zhǎng)期的過程,對(duì)于大型企業(yè),都應(yīng)當(dāng)在數(shù)據(jù)治理的規(guī)范和約束下應(yīng)用大數(shù)據(jù),挖掘數(shù)據(jù)資產(chǎn)價(jià)值,提供人工智能服務(wù)。

      數(shù)據(jù)治理是人工智能的基礎(chǔ),數(shù)據(jù)治理的目的是在業(yè)務(wù)價(jià)值驅(qū)動(dòng)下提供高質(zhì)量的大數(shù)據(jù),而人工智能本身是大數(shù)據(jù)應(yīng)用的一種商業(yè)模式,數(shù)據(jù)治理和人工智能就好比一枚硬幣的正反面一樣密不可分,兩者的有機(jī)結(jié)合助力將加速開啟智能化數(shù)據(jù)治理的新時(shí)代。

      本文參考IBM《以機(jī)器學(xué)習(xí)為驅(qū)動(dòng)的數(shù)據(jù)治理》、《 德塔大數(shù)據(jù)研究院數(shù)據(jù)治理》相關(guān)內(nèi)容

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多