日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

Flink Forward Aisa 系列??麱link CDC 新一代數(shù)據(jù)集成框架 - 技術(shù)原理、入門與生產(chǎn)實(shí)踐

 看見就非常 2022-01-24

“全增量一體化數(shù)據(jù)集成“

“實(shí)時(shí)數(shù)據(jù)入湖入倉“

“最詳細(xì)的免費(fèi)教程”

《Flink CDC 新一代數(shù)據(jù)集成框架》由阿里巴巴技術(shù)專家,Apache Flink PMC Member & Committer 伍翀 (云邪) 出品,旨在幫助讀者能更全面地了解 Flink CDC。

在這本??锬憧梢粤私獾?

  • Flink CDC 的底層原理設(shè)計(jì)是什么樣的?
  • Flink CDC 如何保證數(shù)據(jù)讀取的一致性?
  • 如何一步步快速上手 Flink CDC?
  • Flink CDC 在生產(chǎn)實(shí)踐上的寶貴經(jīng)驗(yàn)

img

在信息爆炸的時(shí)代,為了從海量數(shù)據(jù)中洞察業(yè)務(wù)價(jià)值,驅(qū)動(dòng)運(yùn)營決策,企業(yè)通常會(huì)構(gòu)建用于數(shù)據(jù)分析的數(shù)據(jù)倉庫。數(shù)據(jù)倉庫的數(shù)據(jù)一般來源于多個(gè)分散的、異構(gòu)的數(shù)據(jù)源,通過數(shù)據(jù)集成技術(shù)將數(shù)據(jù)整合在一起,消除數(shù)據(jù)孤島,便于后續(xù)的分析。近年來,面向分析的數(shù)據(jù)系統(tǒng)發(fā)展迅速,各種新型的 OLAP 系統(tǒng)開始顯露鋒芒,數(shù)據(jù)湖和 Lakehouse 的概念也變得炙手可熱。然而,數(shù)據(jù)集成仍然是人們通往數(shù)據(jù)分析之路上的主要障礙。

構(gòu)建一個(gè)中心化的數(shù)據(jù)倉庫本身是一個(gè)艱巨的任務(wù),每個(gè)數(shù)據(jù)源都需要單獨(dú)的程序和工具來攝取、清洗和導(dǎo)入數(shù)據(jù)。尤其是隨著業(yè)務(wù)的發(fā)展,企業(yè)對(duì)于數(shù)據(jù)實(shí)時(shí)性的要求越來越高。在 2021 年 6 月,Apache 董事會(huì)宣布決定終止 Apache Sqoop 項(xiàng)目,以 Apache Sqoop 為代表的傳統(tǒng)離線數(shù)據(jù)同步開始退出歷史舞臺(tái)。這也代表著傳統(tǒng)的離線數(shù)據(jù)同步已經(jīng)無法滿足用戶的需求,人們開始追求更為實(shí)時(shí)的數(shù)據(jù)同步方案?;跀?shù)據(jù)庫事務(wù)日志的 Change Data Capture (CDC) 技術(shù)作為一種更為優(yōu)雅和先進(jìn)的實(shí)時(shí)數(shù)據(jù)同步方案,開始廣泛應(yīng)用于增量數(shù)據(jù)集成中。然而諸如 Canal 等專注于純?cè)隽繑?shù)據(jù)同步的開源項(xiàng)目也逐漸面臨活躍度越來越低的困境,因?yàn)橛脩粝胍傻臄?shù)據(jù)從來不是單獨(dú)的歷史數(shù)據(jù)部分,或是單獨(dú)的增量數(shù)據(jù)部分,而是歷史數(shù)據(jù)和增量數(shù)據(jù)一體化地集成到數(shù)據(jù)倉庫。這也是為什么如 Debezium、 Flink CDC 等全增量一體化數(shù)據(jù)集成框架能越來越受歡迎的原因之一。

Flink CDC 是 Apache Flink 的一個(gè)重要組件,主要使用了 CDC 技術(shù)從各種數(shù)據(jù)庫中獲取變更流并接入到 Flink 中。Apache Flink 作為一款非常優(yōu)秀的流處理引擎,其 SQL API 又提供了強(qiáng)大的流式計(jì)算能力,因此結(jié)合 Flink CDC 能帶來非常廣闊的應(yīng)用場景。例如,F(xiàn)link CDC 可以替代傳統(tǒng)的 DataX 和 Canal 工具做實(shí)時(shí)數(shù)據(jù)同步,將數(shù)據(jù)庫的全量和增量數(shù)據(jù)同步到消息隊(duì)列和數(shù)據(jù)倉庫中。也可以做實(shí)時(shí)數(shù)據(jù)集成,將數(shù)據(jù)庫數(shù)據(jù)實(shí)時(shí)入湖入倉。還可以做實(shí)時(shí)物化視圖,通過 SQL 對(duì)數(shù)據(jù)庫數(shù)據(jù)做實(shí)時(shí)關(guān)聯(lián)、打?qū)?、聚合,并將物化結(jié)果寫入到湖倉中。

為了幫助讀者能更全面地了解 Flink CDC,我們特地編撰了這本中文???。在這本??锬憧梢粤私獾? Flink CDC 的底層原理設(shè)計(jì)是什么樣的? Flink CDC 如何保證數(shù)據(jù)讀取的一致性? 如何一步步快速上手 Flink CDC? 以及 Flink CDC 在生產(chǎn)實(shí)踐上的寶貴經(jīng)驗(yàn)!

作為新一代數(shù)據(jù)集成框架,F(xiàn)link CDC 希望解決的問題很簡單: “成為數(shù)據(jù)從源頭連接到數(shù)據(jù)倉庫的管道,屏蔽過程中的一切復(fù)雜問題,讓用戶專注于數(shù)據(jù)分析”。 但是為了讓數(shù)據(jù)集成變得簡單,其中的挑戰(zhàn)仍然非常多: 比如百億數(shù)據(jù)如何高效入湖入倉? 千表數(shù)據(jù)如何穩(wěn)定入湖入倉? 如何“一鍵”整庫同步? 表結(jié)構(gòu)頻繁變更,如何自動(dòng)同步表結(jié)構(gòu)變更到湖和倉中? 我們會(huì)在本??薪榻B Flink CDC 在這些方向取得的一些初步進(jìn)展,F(xiàn)link CDC 未來也會(huì)持續(xù)朝著這些方向改進(jìn)。我們后續(xù)還會(huì)組織發(fā)布更多關(guān)于這些場景的 Flink CDC 系列專刊。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多