“全增量一體化數(shù)據(jù)集成“ “實(shí)時(shí)數(shù)據(jù)入湖入倉“ “最詳細(xì)的免費(fèi)教程” 《Flink CDC 新一代數(shù)據(jù)集成框架》由阿里巴巴技術(shù)專家,Apache Flink PMC Member & Committer 伍翀 (云邪) 出品,旨在幫助讀者能更全面地了解 Flink CDC。 在這本??锬憧梢粤私獾?
在信息爆炸的時(shí)代,為了從海量數(shù)據(jù)中洞察業(yè)務(wù)價(jià)值,驅(qū)動(dòng)運(yùn)營決策,企業(yè)通常會(huì)構(gòu)建用于數(shù)據(jù)分析的數(shù)據(jù)倉庫。數(shù)據(jù)倉庫的數(shù)據(jù)一般來源于多個(gè)分散的、異構(gòu)的數(shù)據(jù)源,通過數(shù)據(jù)集成技術(shù)將數(shù)據(jù)整合在一起,消除數(shù)據(jù)孤島,便于后續(xù)的分析。近年來,面向分析的數(shù)據(jù)系統(tǒng)發(fā)展迅速,各種新型的 OLAP 系統(tǒng)開始顯露鋒芒,數(shù)據(jù)湖和 Lakehouse 的概念也變得炙手可熱。然而,數(shù)據(jù)集成仍然是人們通往數(shù)據(jù)分析之路上的主要障礙。 構(gòu)建一個(gè)中心化的數(shù)據(jù)倉庫本身是一個(gè)艱巨的任務(wù),每個(gè)數(shù)據(jù)源都需要單獨(dú)的程序和工具來攝取、清洗和導(dǎo)入數(shù)據(jù)。尤其是隨著業(yè)務(wù)的發(fā)展,企業(yè)對(duì)于數(shù)據(jù)實(shí)時(shí)性的要求越來越高。在 2021 年 6 月,Apache 董事會(huì)宣布決定終止 Apache Sqoop 項(xiàng)目,以 Apache Sqoop 為代表的傳統(tǒng)離線數(shù)據(jù)同步開始退出歷史舞臺(tái)。這也代表著傳統(tǒng)的離線數(shù)據(jù)同步已經(jīng)無法滿足用戶的需求,人們開始追求更為實(shí)時(shí)的數(shù)據(jù)同步方案?;跀?shù)據(jù)庫事務(wù)日志的 Change Data Capture (CDC) 技術(shù)作為一種更為優(yōu)雅和先進(jìn)的實(shí)時(shí)數(shù)據(jù)同步方案,開始廣泛應(yīng)用于增量數(shù)據(jù)集成中。然而諸如 Canal 等專注于純?cè)隽繑?shù)據(jù)同步的開源項(xiàng)目也逐漸面臨活躍度越來越低的困境,因?yàn)橛脩粝胍傻臄?shù)據(jù)從來不是單獨(dú)的歷史數(shù)據(jù)部分,或是單獨(dú)的增量數(shù)據(jù)部分,而是歷史數(shù)據(jù)和增量數(shù)據(jù)一體化地集成到數(shù)據(jù)倉庫。這也是為什么如 Debezium、 Flink CDC 等全增量一體化數(shù)據(jù)集成框架能越來越受歡迎的原因之一。 Flink CDC 是 Apache Flink 的一個(gè)重要組件,主要使用了 CDC 技術(shù)從各種數(shù)據(jù)庫中獲取變更流并接入到 Flink 中。Apache Flink 作為一款非常優(yōu)秀的流處理引擎,其 SQL API 又提供了強(qiáng)大的流式計(jì)算能力,因此結(jié)合 Flink CDC 能帶來非常廣闊的應(yīng)用場景。例如,F(xiàn)link CDC 可以替代傳統(tǒng)的 DataX 和 Canal 工具做實(shí)時(shí)數(shù)據(jù)同步,將數(shù)據(jù)庫的全量和增量數(shù)據(jù)同步到消息隊(duì)列和數(shù)據(jù)倉庫中。也可以做實(shí)時(shí)數(shù)據(jù)集成,將數(shù)據(jù)庫數(shù)據(jù)實(shí)時(shí)入湖入倉。還可以做實(shí)時(shí)物化視圖,通過 SQL 對(duì)數(shù)據(jù)庫數(shù)據(jù)做實(shí)時(shí)關(guān)聯(lián)、打?qū)?、聚合,并將物化結(jié)果寫入到湖倉中。 為了幫助讀者能更全面地了解 Flink CDC,我們特地編撰了這本中文???。在這本??锬憧梢粤私獾? Flink CDC 的底層原理設(shè)計(jì)是什么樣的? Flink CDC 如何保證數(shù)據(jù)讀取的一致性? 如何一步步快速上手 Flink CDC? 以及 Flink CDC 在生產(chǎn)實(shí)踐上的寶貴經(jīng)驗(yàn)! 作為新一代數(shù)據(jù)集成框架,F(xiàn)link CDC 希望解決的問題很簡單: “成為數(shù)據(jù)從源頭連接到數(shù)據(jù)倉庫的管道,屏蔽過程中的一切復(fù)雜問題,讓用戶專注于數(shù)據(jù)分析”。 但是為了讓數(shù)據(jù)集成變得簡單,其中的挑戰(zhàn)仍然非常多: 比如百億數(shù)據(jù)如何高效入湖入倉? 千表數(shù)據(jù)如何穩(wěn)定入湖入倉? 如何“一鍵”整庫同步? 表結(jié)構(gòu)頻繁變更,如何自動(dòng)同步表結(jié)構(gòu)變更到湖和倉中? 我們會(huì)在本??薪榻B Flink CDC 在這些方向取得的一些初步進(jìn)展,F(xiàn)link CDC 未來也會(huì)持續(xù)朝著這些方向改進(jìn)。我們后續(xù)還會(huì)組織發(fā)布更多關(guān)于這些場景的 Flink CDC 系列專刊。 |
|