 “石老師,Data Fabric(數據編織)你聽過嗎?據說在數據領域很火啊?”這是一個“談數據”讀者,去年10月份的時候在微信公眾號給我的留言。說來比較慚愧,當時Data Fabric這個詞對我來說當時雖然聽過,但也僅限于“聽過”!因為當時我也只知道 'Data Fabric '是 Gartner 2021年十大數據和分析技術趨勢之一,但其具體工作原理、應用場景卻知之甚少了……“Data Fabric”在國內談論的比較少,但據說在國外已經很火了,就如同2019年國內的“數據中臺”一樣火!“Data Fabric”究竟是什么?這又是一場概念的炒作,還是真正的技術革新?這些問題一直困擾著我。于是,帶著這些問題,通過翻閱大量材料,終于發(fā)現了“Data Fabric”的“真相”!當下,數據是企業(yè)數字化轉型重要驅動因素,而企業(yè)的數據環(huán)境日趨復雜:內部數據/外部數據,實時數據/批處理數據,結構化數據/半結構化數據/非結構化數據,本地數據/云端數據,單機數據/分布式數據……,在更高程度數字化要求下,企業(yè)必須使用一種新型的數據結構來應對企業(yè)數據資產日益加劇的多樣化、分布式、規(guī)模、復雜性等問題。在這樣的背景下,一種新興的數據管理和處理方法——數據編織(Data Fabric)誕生了。Gartner認為數據編織是一種跨平臺的數據整合方式,它不僅可以集合所有業(yè)務用戶的信息,還具有靈活且彈性的特點,使得人們可以隨時隨地使用任何數據。
圖片來源:gartner 作為一種新興的數據管理和處理方法,數據編織改進了數據倉庫和數據湖的概念,引入了一個新的架構(網絡狀),使整個企業(yè)能夠統(tǒng)一利用數據。數據編織使用基于網絡的架構而不是點對點的連接來處理數據,實現了從數據源層面到分析、洞察力生成、協(xié)調和應用的一體化數據結構。據Gartner預測:數據編制利用分析功能來持續(xù)監(jiān)控數據管道,通過對數據資產的持續(xù)分析,支持各種數據的設計、部署和使用,縮短集成時間30%,縮短部署時間30%,縮短維護時間70%。Gartner 將數據編織定義為一種設計概念,它充當數據和連接過程的集成層(結構)。數據編織利用對現有、可發(fā)現的元數據資產的持續(xù)分析,以支持跨所有環(huán)境(包括混合云和多云平臺)設計、部署和利用集成和可重用數據。數據編織利用人和機器的能力來訪問數據或在適當的情況下支持其整合。它不斷地識別和連接來自不同應用程序的數據,以發(fā)現可用數據之間獨特的、與業(yè)務相關的關系,并通過分析獲得數據洞察力;通過快速訪問和基于圖譜的元數據理解提供比傳統(tǒng)數據管理更多的價值。下圖是Gartner給出的數據編織的典型結構,至下而上分為5個層次: 數據源層:數據編織可以連接各種數據源。這些資源可能存在于企業(yè)內部,例如企業(yè)的ERP系統(tǒng)、CRM系統(tǒng)或人力資源系統(tǒng) 。還可以連接到非結構化數據源,例如,支持 PDF 和屏幕截圖等文件提交系統(tǒng),支持物聯網傳感器的接入。數據編織還可以從公共可用數據(如社交媒體)等外部系統(tǒng)中提取數據。數據目錄層:與傳統(tǒng)人工編目不同,數據編織強調采用新技術,例如:語義知識圖、主動元數據管理和嵌入式機器學習 (ML),自動識別元數據,持續(xù)分析關鍵指標和統(tǒng)計數據的可用元數據,然后構建圖譜模型,形成基于元數據的獨特和業(yè)務相關關系,以易于理解的圖譜方式描述元數據。 知識圖譜層:數據編織必須構建和管理知識圖譜。知識圖譜的語義層使用 AI/ML 算法簡化數據集成設計,使其更加直觀和易于解釋,使數字化領導者的分析變得容易。 基于知識圖譜的數據應用,將合適的數據在合適的時機自動化推送給數據集成專家和數據工程師,讓他們能夠輕松訪問數據并進行數據共享和使用。數據集成層:數據編織提供自動編織、動態(tài)集成的能力,兼容各種數據集成方式,包括但不限于 ETL、流式傳輸、復制、消息傳遞和數據虛擬化或數據微服務等。同時,支持通過 API 支持與內部和外部利益相關者共享數據。數據消費層:數據編織面向所有類型的數據用戶,提供數據和服務,包括:數據科學家、數據分析師、數據集成專家、數據工程師等,既能夠面向專業(yè)的IT 用戶的復雜集成需求處理,也可以支持業(yè)務人員的自助式數據準備和分析。數據編織,乍一看是不是很眼熟,是不是有種“似曾相識”的趕腳,是不是與我們的“數據中臺”的概念有點像?在主流的數據中臺概念中,也強調支持各種數據源(結構化的、半結構化的、非結構化的),提供數據目錄、數據標簽、數據分析等服務,提供數據資產的動態(tài)化管理,支持為不同數據用戶提供數據服務,解決企業(yè)的數據孤島,讓數據用起來。這些特點都與數據編織很相似,只不過數據編織更強調人工智能和知識圖譜的應用。因此,也有專家提出“數據編織是數據中臺的一下站!”。 筆者認為數據中臺與數據編織還并不是一個概念,更不像是數據中臺的高級版本,以下是筆者理解的數據中臺與數據編織之間的關系和差異,如有偏頗,還請斧正。第一,數據中臺并不是全新的技術和產品,更多是由一些技術組件組合而形成的一個綜合性的數據應用解決方案,例如:基于數據湖的數據存儲服務、基于各種數據管理組件的數據治理服務,基于大數據平臺的數據計算和處理服務,以及提供面向應用的數據標簽、數據目錄、數據分析、模型算法服務等。而數據編織是側重于統(tǒng)一多樣化和分布式數據資產的功能,為應對復雜的混合數據環(huán)境所面臨的挑戰(zhàn)而設計,是一種架構設計方式,強調自動化的數據集成、整合和治理。第二,數據中臺是一個“讓數據用起來”的方法論,不僅包含數據管理和使用的相關技術組件,還包括與之相適應的企業(yè)組織機構、管理制度和流程、運營機制和考核辦法等。而數據編織一開始就強調新技術的應用,例如:機器學習、人工智能、知識圖譜的等,且構建和管理知識圖譜是其核心支持從數據源級別到分析、洞察力生成、編排和應用程序的集成數據層(結構),數據編織的技術色彩更濃一些。第三,數據中臺需要有專業(yè)的管理和運營團隊才能發(fā)揮作用,這個團隊往往是由IT部門承擔。而數據編織則強調更少的IT干預,數據編織的重要特征依賴于一組預建和預配置的組件,從原始數據到經過處理和可操作的信息,這些信息或系統(tǒng)通常托管在云端,由經驗豐富的服務提供商管理。這意味著,數據編織的實施和維護數據中,不需要太多的IT部門參與。基于以上幾點,可見數據中臺與數據編織是兩個概念,如果硬要和數據中臺比較的話,我倒是認為數據編織可以作為數據中臺的一部分,畢竟數據中臺爭議頗多,至今也沒有一個標準的定義,多增加一些內容倒也無妨,哈哈~大家都知道,數據治理是對數據管理的管理,它是基于內部數據標準、策略和規(guī)則,管理企業(yè)數據的可用性、完整性和安全性,從而將數據轉化為企業(yè)資產。數據治理涵蓋了數據管理的各種主題,例如:數據戰(zhàn)略、數據架構、數據建模、數據存儲和操作、數據安全、數據質量、元數據、數據集成和互操作性、文檔和內容、參考數據和主數據、數據倉庫和商業(yè)智能等。  在傳統(tǒng)的數據治理體系中是沒有包含數據編織的,但Data Fabric是一種數據管理的全新架構,筆者認為數據編織將是自動化、智能化數據治理的一個理想解決方案,從數據架構層面增強了企業(yè)數據管理的能力。數據編織提供了基于知識圖譜的統(tǒng)一語義描述層,使業(yè)務用戶能夠輕松發(fā)現和訪問相關的數據;數據編織使用先進的人工智能、機器學習算法連接不同數據源的數據以及數據之間的業(yè)務關系,建立知識圖譜,提供持續(xù)分析能力,以衡量和識別與數據相關的各種業(yè)務價值和風險。數據編織支持各種數據源的連接,本地化管理企業(yè)內部、外部、云端的數據資產的元數據;通過AI/ML技術,自動化應用策略、使得審計合規(guī)性和識別系統(tǒng)中的潛在數據漏洞變得更加容易;自動化和人工智能的應用增強了數據跟蹤和路線查詢能力;通過整合所有數據環(huán)境,落地整體數據治理和安全流程集中且一致的治理體系。數據編制的設計和部署天然具備跨分布式的多種基礎設施環(huán)境的數據進行集成能力,提供為孤立的數據源自動創(chuàng)建數據集成管道,支持ETL、流式傳輸、復制、消息集成、web服務、API接口等多種集成管道。通過預定義的數據集成策略自助、動態(tài)獲取最新的數據資產,讓企業(yè)的數據資產可見、可查、可管、可用!數據編織是一個先進的數據管理架構,采用人工智能、機器學習、數據湖以及其他平臺和技術對不同數據源進行自助編排,確保企業(yè)全面了解所有數據環(huán)境中的數據管道。數據編織支持數據的統(tǒng)一生命周期管理,用于配置和管理數據的各個方面,包括數據驅動應用的開發(fā)、運營、測試和生產發(fā)布。 不得不承認,在科技創(chuàng)新方面,我們與美國還是有很大差距的。就拿數據編織這個全新的數據架構來講,在國內還未見到應用案例,但在國外已經形成了最佳實踐。以下內容是根據國內的一些公開材料,整理出來的5個數據編織應用實踐。我們先來回顧一下什么是DataOps。DataOps是一種工程方法論和一套實踐方法,旨在快速、可靠、可重復、持續(xù)地交付生產就緒數據以及運營就緒分析和數據科學模型。DataOps 通過支持數據版本控制、數據轉換、數據血緣和分析模型的工程學科來增強和推進數據治理。雖然Data Fabric和DataOps不是相同的概念,但DataOps是將Data Fabric真正落地一個重要的推動者。DataOps 流程模型,數據流程、工具和數據洞察與用戶之間存在密切的聯系。用戶可以持續(xù)依賴數據,有意義地利用可用工具,并通過數據洞察力來優(yōu)化業(yè)務運營。該模型與數據編織的架構具有共生關系。如果沒有 DataOps 流程模型和思維模式,用戶將難以充分利用數據編織。構建數據編織時的一個常見問題是它可能最終變成另一個數據湖。如果企業(yè)擁有所有架構組件——數據源、分析、BI 算法、數據傳輸和數據消費——但沒有 API 和 SDK,那么結果就不是真正的數據編織。 數據編織是一種架構設計方式,而不是單一技術。組件之間的互操作性和集成準備是該設計的定義特征。這就是為什么企業(yè)需要特別關注集成層、無縫數據傳輸以及自動洞察的獲得,通過API和SDK實現。云供應商傾向于將客戶綁定在他們的服務中,這使得數據遷移、集成、整合對企業(yè)來說是一項成本高昂且具有挑戰(zhàn)性的工作。數據編織必須面向企業(yè)復雜的數據環(huán)境提供集成整合能力,克服在維護多樣化的數據存儲和基礎設施部署組合方面的技術挑戰(zhàn)。企業(yè)可以根據不斷變化的技術和業(yè)務需求,自由地從一系列混合 IT 基礎架構資源中運行關鍵任務數據驅動的 IT 服務、應用程序、存儲和訪問。邊緣計算專為支持物聯網實施而構建,它是將與數據相關的關鍵任務從集中式應用程序轉移到一個單獨的邊緣層,該邊緣層是分布式的,但與數據編織緊密相連。通過使數據編織適配邊緣計算,企業(yè)可以從其物聯網設備中獲得更多數據價值。 例如,智能工廠可以使用數據編織與邊緣數據深度融合,可自動計算貨物集裝箱的重量,并自動啟動揀貨流程。通過邊緣數據編織加速業(yè)務決策并實現自動化操作,這是傳統(tǒng)集中式數據倉庫無法做到的。圖數據庫是關系數據庫的一種更智能的替代方案,它有助于使用知識圖譜來可視化元數據和數據關系。圖數據庫使用語義上下文豐富數據,以了解信息的含義,而不僅僅是文本字符串。 由圖分析提供支持的知識圖譜是數據編織的理想解決方案——數據編織架構的主要目的是實現對不同數據源的整體使用而不是重復使用。知識圖譜可以通過分析數據源之間的關系來提供業(yè)務和運營洞察力。與關系數據庫方法相比,它更擅長集成不同的數據,并且挖掘出業(yè)務人員更關心的“洞見”。參考文獻: 奇拉迪普·巴蘇馬利克《What Is Data Fabric?》 Gartner 《Gartner 2022年12大戰(zhàn)略技術趨勢》
|