日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

ETL常用的三種工具介紹及對(duì)比Datastage,Informatica

 愛吃魚的俊懶貓 2019-04-16

ETL是數(shù)據(jù)倉(cāng)庫(kù)中的非常重要的一環(huán),是承前啟后的必要的一步。ETL負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。下面給大家介紹一下什么是ETL以及ETL常用的三種工具(Datastage,Informatica,Kettle)!

1.ETL是什么?

ETL,是英文 Extract-Transform-Load 的縮寫,用來(lái)描述將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過(guò)程。(數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu))通俗的說(shuō)法就是從數(shù)據(jù)源抽取數(shù)據(jù)出來(lái),進(jìn)行清洗加工轉(zhuǎn)換,然后加載到定義好的數(shù)據(jù)倉(cāng)庫(kù)模型中去。目的是將企業(yè)中的分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析依據(jù)。ETL是BI項(xiàng)目重要的一個(gè)環(huán)節(jié),其設(shè)計(jì)的好壞影響生成數(shù)據(jù)的質(zhì)量,直接關(guān)系到BI項(xiàng)目的成敗。

2.為什么要用ETL工具?

? 當(dāng)數(shù)據(jù)來(lái)自不同的物理主機(jī),這時(shí)候如使用SQL語(yǔ)句去處理的話,就顯得比較吃力且開銷也更大。

? 數(shù)據(jù)來(lái)源可以是各種不同的數(shù)據(jù)庫(kù)或者文件,這時(shí)候需要先把他們整理成統(tǒng)一的格式后才可以進(jìn)行數(shù)據(jù)的處理,這一過(guò)程用代碼實(shí)現(xiàn)顯然有些麻煩。

? 在數(shù)據(jù)庫(kù)中我們當(dāng)然可以使用存儲(chǔ)過(guò)程去處理數(shù)據(jù),但是處理海量數(shù)據(jù)的時(shí)候存儲(chǔ)過(guò)程顯然比較吃力,而且會(huì)占用較多數(shù)據(jù)庫(kù)的資源,這可能會(huì)導(dǎo)致數(shù)據(jù)資源不足,進(jìn)而影響數(shù)據(jù)庫(kù)的性能。

上面所說(shuō)的問(wèn)題,我們用ETL工具就可以解決。它的優(yōu)點(diǎn)有:

● 支持多種異構(gòu)數(shù)據(jù)源的連接。(部分)

● 圖形化的界面操作十分方便。

● 處理海量數(shù)據(jù)速度快、流程更清晰等。

3.ETL工具介紹

Informatica和Datastage占據(jù)國(guó)內(nèi)市場(chǎng)的大部分的份額。

4.ETL工具差異

Kettle,Datastage,Informatica三個(gè)ETL工具的特點(diǎn)和差異介紹:

操作

都是屬于比較簡(jiǎn)單易用,主要是開發(fā)人員對(duì)于工具的熟練程度。Informatica有四個(gè)開發(fā)管理組件,開發(fā)的時(shí)候我們需要打開其中三個(gè)進(jìn)行開發(fā),Informatica沒(méi)有ctrl+z的功能,如果對(duì)job作了改變之后,想要撤銷,返回到改變前是不可能的。相比Kettle跟Datastage在測(cè)試調(diào)試的時(shí)候不太方便。Datastage全部的操作在同一個(gè)界面中,不用切換界面,能夠看到數(shù)據(jù)的來(lái)源,整個(gè)job的情況,在找bug的時(shí)候會(huì)比Informatica方便。Kettle介于兩者之間。

部署

Kettle只需要JVM環(huán)境,Informatica需要服務(wù)器和客戶端安裝,而Datastage的部署比較耗費(fèi)時(shí)間,有一點(diǎn)難度。

數(shù)據(jù)處理的速度

大數(shù)據(jù)量下Informatica 與Datastage的處理速度是比較快的,比較穩(wěn)定。Kettle的處理速度相比之下稍慢。

服務(wù)

Informatica與Datastage有很好的商業(yè)化的技術(shù)支持,而Kettle則沒(méi)有。商業(yè)軟件的售后服務(wù)上會(huì)比免費(fèi)的開源軟件好很多。

風(fēng)險(xiǎn)

風(fēng)險(xiǎn)與成本成反比,也與技術(shù)能力成正比。

擴(kuò)展

Kettle的擴(kuò)展性無(wú)疑是最好,因?yàn)槭情_源代碼,可以自己開發(fā)拓展它的功能,而Informatica和Datastage由于是商業(yè)軟件,基本上沒(méi)有。

Job的監(jiān)控

三者都有監(jiān)控和日志工具。在數(shù)據(jù)的監(jiān)控上,個(gè)人覺得Datastage的實(shí)時(shí)監(jiān)控做的更加好,可以直觀看到數(shù)據(jù)抽取的情況,運(yùn)行到哪一個(gè)控件上。這對(duì)于調(diào)優(yōu)來(lái)說(shuō),我們可以更快的定位到處理速度太慢的控件并進(jìn)行處理,而informatica也有相應(yīng)的功能,但是并不直觀,需要通過(guò)兩個(gè)界面的對(duì)比才可以定位到處理速度緩慢的控件。有時(shí)候還需要通過(guò)一些方法去查找。

網(wǎng)上的技術(shù)文檔

Datastage < Informatica < kettle,相對(duì)來(lái)說(shuō),Datastage跟Informatica在遇到問(wèn)題去網(wǎng)上找到解決方法的概率比較低,kettle則比較多。

5.項(xiàng)目經(jīng)驗(yàn)分享

多張表同步、重復(fù)的操作:在項(xiàng)目中,很多時(shí)候我們都需要同步生產(chǎn)庫(kù)的表到數(shù)據(jù)倉(cāng)庫(kù)中。一百多張表同步、重復(fù)的操作,對(duì)開發(fā)人員來(lái)說(shuō)是細(xì)心和耐心的考驗(yàn)。在這種情況下,開發(fā)人員最喜歡的工具無(wú)疑是kettle,多個(gè)表的同步都可以用同一個(gè)程序運(yùn)行,不必每一張表的同步都建一個(gè)程序,而informatica雖然有提供工具去批量設(shè)計(jì),但還是需要生成多個(gè)程序進(jìn)行一一配置,而datastage在這方面就顯得比較笨拙。

增量表:在做增量表的時(shí)候,每次運(yùn)行后都需要把將最新的一條數(shù)據(jù)操作時(shí)間存到數(shù)據(jù)庫(kù)中,下次運(yùn)行我們就取大于這個(gè)時(shí)間的數(shù)據(jù)。Kettle有控件可以直接讀取數(shù)據(jù)庫(kù)中的這個(gè)時(shí)間置為變量;對(duì)于沒(méi)有類似功能控件的informatica,我們的做法是先讀取的數(shù)據(jù)庫(kù)中的這個(gè)時(shí)間存到文件,然后主程序運(yùn)行的時(shí)候指定這個(gè)文件為參數(shù)文件,也可以得到同樣的效果。

有一句話說(shuō)的好:世上沒(méi)有最好的,只有適合的!每一款ETL工具都有它的優(yōu)缺點(diǎn),我們需要根據(jù)實(shí)際項(xiàng)目,權(quán)衡利弊選擇適合的ETL工具,合適的就是最好的。當(dāng)下越來(lái)越多公司及其客戶更重視最新的數(shù)據(jù)(實(shí)時(shí)數(shù)據(jù))展現(xiàn),傳統(tǒng)的ETL工具可能滿足不了這樣的需求,而實(shí)時(shí)流數(shù)據(jù)處理和云計(jì)算技術(shù)更符合。所以我們也需要與時(shí)俱進(jìn),學(xué)習(xí)大數(shù)據(jù)時(shí)代下的ETL工具。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多