大數(shù)據(jù)將給我們帶來怎樣的變化？

高山仙人掌 2014-04-27

展開全文

大數(shù)據(jù)將給我們帶來怎樣的變化？(1)

2011-09-08 09:47 來源:it168 楊捷編譯我要評論(0)

摘要：我們都聽過這個預(yù)測：到2020年，電子數(shù)據(jù)存儲量將在2009年的基礎(chǔ)上增加44倍，達到35萬億GB。根據(jù)IDC數(shù)據(jù)顯示，截止到2010年，這個數(shù)字已經(jīng)達到了120萬PB，或1.2ZB。
標簽：大數(shù)據(jù)
我們都聽過這個預(yù)測：到2020年，電子數(shù)據(jù)存儲量將在2009年的基礎(chǔ)上增加44倍，達到35萬億GB。根據(jù)IDC數(shù)據(jù)顯示，截止到2010年，這個數(shù)字已經(jīng)達到了120萬PB，或1.2ZB。如果把所有這些數(shù)據(jù)都存入DVD光盤，光盤高度將等同于從地球到月球的一個來回——也就是大約480,000英里。

對于那些喜歡杞人憂天的人來說，這是數(shù)據(jù)存儲的末日即將到來的不祥預(yù)兆。而對于機會主義者們而言，這就好比是個信息金礦，隨著技術(shù)的進步，金礦開采會變得越來越容易。

走進大數(shù)據(jù)--一種新興的數(shù)據(jù)挖掘技術(shù)，它正在讓數(shù)據(jù)處理和分析變得更便宜更快速。大數(shù)據(jù)技術(shù)一旦進入超級計算時代，很快便可應(yīng)用于普通企業(yè)，在遍地開花的過程中，它將改變許多行業(yè)業(yè)務(wù)經(jīng)營的模式。

在計算機世界里，大數(shù)據(jù)被定義為一種使用非傳統(tǒng)的數(shù)據(jù)過濾工具，對大量有序或無序數(shù)據(jù)集合進行的挖掘過程，它包括但不僅限于分布式計算(Hadoop)。

大數(shù)據(jù)已經(jīng)站在了數(shù)據(jù)存儲宣傳的風口浪尖，也存在著大量不確定因素，這點上非常像“云”。我們請教了一些分析人士和大數(shù)據(jù)愛好者，請他們解釋一下大數(shù)據(jù)究竟是什么，以及它對于未來數(shù)據(jù)存儲的意義。

大數(shù)據(jù)走進歷史舞臺

適用于企業(yè)的大數(shù)據(jù)已經(jīng)出現(xiàn)，這在部分程度上要歸功于計算能耗的降低以及系統(tǒng)已具備執(zhí)行多重處理的能力這樣一個事實。而且隨著主存儲器成本的不斷下降，和過去相比，公司可以將更多的數(shù)據(jù)存到存儲器中。并且，將多臺計算機連到服務(wù)器集群也變得更容易了。這三個變化加在一起成就了大數(shù)據(jù)，IDC 數(shù)據(jù)庫管理分析師Carl Olofson如是說。

“我們不僅要把這些事情做好，還要能承受得起相應(yīng)的開支”，他說。 “過去的某些超級計算機也具有執(zhí)行系統(tǒng)多重處理的能力，(這些系統(tǒng)緊密相連，形成了一個集群)但因為要使用專門的硬件，它的成本高達幾十萬美元甚至更多。”現(xiàn)在我們可以使用普通硬件完成相同的配置。正因為這樣，我們能更快更省得處理更多數(shù)據(jù)。"

大數(shù)據(jù)技術(shù)還沒有在有大型數(shù)據(jù)倉庫的公司中得到廣泛普及。IDC認為，想讓大數(shù)據(jù)技術(shù)得到認可，首先技術(shù)本身一定要足夠便宜，然后，必須滿足IBM稱之為3V標準中的2V，即：類型(variety)，量(volume)和速度(velocity)。

種類要求指的是待存儲數(shù)據(jù)的類型分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。量是指存儲和分析的數(shù)據(jù)量可以很龐大。 “數(shù)據(jù)量不只是幾百TB，” Olofson說： “要視具體情況而定，因為速度和時間的關(guān)系，有時幾百GB可能就算很多了。如果我現(xiàn)在一秒能完成過去要花一小時才能完成的300GB的數(shù)據(jù)分析，那結(jié)果將大為不同。大數(shù)據(jù)就是這樣一種技術(shù)，它可以滿足這三個要求中的至少兩個，并且普通企業(yè)也能夠部署。”

關(guān)于大數(shù)據(jù)的三大誤解

對于大數(shù)據(jù)是什么以及大數(shù)據(jù)能干什么存在很多誤會。下面就是有關(guān)大數(shù)據(jù)的三個誤解：

1、關(guān)系數(shù)據(jù)庫無法大幅增容，因此不能被認為是大數(shù)據(jù)技術(shù)(不對)

2、無需考慮工作負載或具體使用情況，Hadoop或以此類推的任何MapReduce都是大數(shù)據(jù)的最佳選擇。(也不對)

3、圖解式管理系統(tǒng)時代已經(jīng)結(jié)束。圖解的發(fā)展只會成為大數(shù)據(jù)應(yīng)用的攔路虎。(可笑的錯誤)

大數(shù)據(jù)與開源的關(guān)系

“很多人認為Hadoop和大數(shù)據(jù)基本上是一個意思。這是錯誤的，”O(jiān)lofson說。并解釋道： Teradata, MySQL和“智能聚合技術(shù)”的某些安裝啟用都用不到Hadoop，但它們也可以被認為是大數(shù)據(jù)。

Hadoop是一種用于大數(shù)據(jù)的應(yīng)用程序，因為它是建立在MapReduce基礎(chǔ)上的，所以引起了極大的關(guān)注。(MapReduce是一種用于超級計算的普通方法，之后經(jīng)過了主要由Google資助的一個項目的優(yōu)化，因此被簡化并變得考究了。) Hadoop是幾個緊密關(guān)聯(lián)的Apache項目組成的混合體的主要安裝啟用程序，其中包括MapReduce環(huán)境中的HBase數(shù)據(jù)庫。

為了充分利用Hadoop和類似的先進技術(shù)，軟件開發(fā)商們絞盡腦汁研發(fā)出了各種各樣的技術(shù)，其中很多都是在開源社區(qū)里開發(fā)出來的。Olofson 說“他們已經(jīng)開發(fā)出了大量的所謂noSQL數(shù)據(jù)庫，種類之多讓人眼花繚亂，其中大部分都是鍵值配對數(shù)據(jù)庫，能利用多種技術(shù)對性能或種類或容量進行優(yōu)化。”

開源技術(shù)還沒有得到商業(yè)支持?！八栽谶@方面還需要經(jīng)過一段時間的發(fā)展完善，這一過程可能需要幾年。基于這個原因，大數(shù)據(jù)可能需要一些時日才能在市場上走向成熟”他補充道。據(jù)IDC預(yù)計，年內(nèi)至少有三家商業(yè)公司能以某種方式給予Hadoop支持。同時，包括Datameer 在內(nèi)的幾家企業(yè)將發(fā)布配有Hadoop組件的分析工具，這種工具能幫助企業(yè)開發(fā)自己的應(yīng)用程序。Cloudera和Tableau公司的產(chǎn)品清單里已經(jīng)出現(xiàn)了Hadoop。

【內(nèi)容導(dǎo)航】

第 1 頁：大數(shù)據(jù)走進歷史舞臺	第 2 頁：誰在真正使用大數(shù)據(jù)呢
第 3 頁：繼續(xù)保持謹慎

新型RDBMS

行業(yè)觀察家們認為升級后的關(guān)系數(shù)據(jù)庫管理系統(tǒng)就是大數(shù)據(jù)，這是無需爭辯的。Olofson說：“我認為它滿足更快，更大，更便宜這三個衡量標準”。比如天睿資訊公司的系統(tǒng)就是個例子，它比以前更便宜，而且自身也是一個可擴展的聚合系統(tǒng)，他補充道。

但其他人卻不這么認為。 “通常使用RDBMS和標準BI工具進行的一般性處理其實不能算是大數(shù)據(jù)，”高德納公司數(shù)據(jù)管理分析師Marcus Collins說。 “這種處理很早之前就有了?！?/p>

那么，誰在真正使用大數(shù)據(jù)呢?

一年前，大數(shù)據(jù)技術(shù)的主要用戶還都是像Facebook和雅虎這樣的大型互聯(lián)網(wǎng)企業(yè)，它們希望借此技術(shù)分析點擊流數(shù)據(jù)。但今天，“這項技術(shù)的使用已經(jīng)不僅限于這些大型網(wǎng)絡(luò)公司了，它正在走進任何你能想到的存有大量數(shù)據(jù)的公司，”Collins 說。銀行，公共事業(yè)單位，智能社區(qū)—都已搭上了大數(shù)據(jù)這趟列車。

雖然大數(shù)據(jù)的某些技術(shù)還不成熟，存在使用風險，但還是有一些人對它非常熱衷，因為他們需要這些技術(shù)，比如建立由社會化媒體推動的網(wǎng)絡(luò)服務(wù)時就要用到其中的某些技術(shù)。這些試吃螃蟹的人對這些項目的發(fā)展做出了很大的貢獻。

同樣地，大數(shù)據(jù)技術(shù)也已經(jīng)對Catalina公司產(chǎn)生了革命性的影響。這家位于佛羅里達圣彼得斯堡的公司有一個2.5PB的大型客戶忠誠度數(shù)據(jù)庫，里面存有1.9億多家美國雜貨店多年來的購買歷史記錄。其中最大的一個單數(shù)據(jù)庫里就有多達4250億行數(shù)據(jù)，僅這一個數(shù)據(jù)庫中，每天公司需要處理的數(shù)據(jù)就有6.25億行。

通過分析這些數(shù)據(jù)，Catalina幫助消費商品主要生產(chǎn)商和大型連鎖超市預(yù)測消費者可能買什么，以及誰會對新產(chǎn)品感興趣。

“我們想把技術(shù)應(yīng)用于數(shù)據(jù)，而不是把數(shù)據(jù)丟給技術(shù)”，Eric Williams，Catalina執(zhí)行副主席兼CIO說。 “現(xiàn)在已經(jīng)有了能讓SAS這樣的公司將它們的分析技術(shù)應(yīng)用于數(shù)據(jù)庫的技術(shù)了，整個公司因此產(chǎn)生了很大的改變。我們過去一直在這么做，但受到了很大的限制，因此無法深入到我們想到的程度。因此我們只能使用自己研發(fā)的工具，但因為還很初級，所以它能完成的工作非常有限。大數(shù)據(jù)技術(shù)對我們而言真是及時雨啊，它改變了整個公司?！?/p>

除了在自己的專有系統(tǒng)中使用了一些開源軟件之外，Catalina也在Netezza數(shù)據(jù)庫平臺中使用了SAS分析法。

一些公司正在“開發(fā)可通用于基于Intel的硬件的技術(shù)，這種技術(shù)可使硬件具備操作二級和三級產(chǎn)品的能力，例如SAS分析法的計分法就可直接應(yīng)用于運行數(shù)據(jù)庫的Netezza(軟件)，”Williams 說。 “能使用這項技術(shù)并將其直接作用于數(shù)據(jù)庫意味著Catalina可以將數(shù)據(jù)開采方案的研發(fā)時間從數(shù)周縮減到大約幾個小時?！?/p>

根據(jù)2010年10月美國銀行主管大數(shù)據(jù)和分析法的前總經(jīng)理Abhishek Mehta在Hadoop World大會上的發(fā)言，大數(shù)據(jù)正在從根本上改變美國銀行的營業(yè)模式。 “我覺得現(xiàn)在的Hadoop就像是20年前的Linux。我們都已經(jīng)看到了Linux對企業(yè)軟件領(lǐng)域的發(fā)展作出的貢獻。軟件行業(yè)被極大程度地分化了，Hadoop將來也一樣，討論其是否會發(fā)生已經(jīng)完全沒有意義，目前的焦點在于它什么時候到來。”

除了能進行點擊量和交易分析之外，Hadoop 還可以讓美國銀行具備快速處理業(yè)務(wù)問題的能力。 “現(xiàn)在，作為銀行的一員，我已經(jīng)可以想到欺騙行為消失的那天了，”Mehta說?！艾F(xiàn)在我已經(jīng)可以建一個模型，把過去五年里發(fā)生在個人身上的每一起詐騙案例都存進去，而不是只抽取幾個樣本建個模型，發(fā)現(xiàn)了模型里沒有的新案例時，就重新建一次模型。這樣的日子已經(jīng)過去了?！?/p>

公共事業(yè)行業(yè)也正在意識到指尖敲擊之下產(chǎn)生的巨大數(shù)據(jù)量，以及這些數(shù)據(jù)會帶來的價值。一家美國中西部的公共事業(yè)單位已經(jīng)在使用Hadoop 分析智能儀表收集的錄入信息了，以前這些智能儀表主要被用來作記賬自動化，但也能收集關(guān)于線路安培數(shù)的波動信息。 “如果你收集到這方面的信息后對其進行分析，你會發(fā)現(xiàn)某個地方的轉(zhuǎn)換器將會出現(xiàn)故障，從而能提前采取應(yīng)對措施?！監(jiān)lofson說。 “或者如果發(fā)生了供電中斷，他們會在用戶打電話詢問前及時發(fā)現(xiàn)情況并采取行動?！?/p>

沿著這個思路，他還看到公共事業(yè)單位使用大數(shù)據(jù)將帶來的其他好處—通過監(jiān)控和檢測電網(wǎng)以及對電網(wǎng)進行微調(diào)來改善客戶服務(wù)質(zhì)量，減少運行成本--但如此一來可能需要對老化的基礎(chǔ)設(shè)計進行有效升級。

品牌營銷商們正在用Hadoop對社會化媒體作情感分析實驗?，F(xiàn)在越來越多的服務(wù)供應(yīng)商也開始使用Hadoop，幫自己的客戶篩選Twitter用戶們正熱衷于談?wù)摰漠a(chǎn)品，以及對這些產(chǎn)品有怎樣的想法。

繼續(xù)保持謹慎

大數(shù)據(jù)技術(shù)發(fā)展很快。目前正在使用該技術(shù)的公司有一大批技術(shù)上格外出眾的IT員工，能對技術(shù)的進步并根據(jù)公司要求做出適當調(diào)整。

“如果你還沒有能力這么做，那就去找一家服務(wù)供應(yīng)商來合作吧--比如找一家云服務(wù)公司--或者再等一等，等到大數(shù)據(jù)發(fā)展到一定程度就有大量成熟的軟件產(chǎn)品和服務(wù)了?！監(jiān)lofson 建議說。 “到時候至少有些東西是你的員工可以理解的了?！?/p>

毫無疑問，數(shù)據(jù)讀取方式已經(jīng)發(fā)生了根本性地轉(zhuǎn)變。但分析師們認為大數(shù)據(jù)技術(shù)不會徹底取代現(xiàn)在的數(shù)據(jù)庫和數(shù)據(jù)讀取工具。

“現(xiàn)在的數(shù)據(jù)處理唯一做的就是建立相對復(fù)雜的模型，里面沒有太多的數(shù)據(jù)?！备叩录{公司的Collins說?！岸缃竦拇髷?shù)據(jù)會給你大量的數(shù)據(jù)--所以你應(yīng)該不再需要那么復(fù)雜的模型了。這可能意味著數(shù)據(jù)處理模式已經(jīng)完成了升級。”

“我的觀點是數(shù)據(jù)庫市場事實上將因此得到擴展，”O(jiān)lofson說。 “他們會使用像MapReduce這樣的技術(shù)，不論是通過Hadoop或是其它的廣告宣傳，來生成一些有趣的商業(yè)智能數(shù)據(jù)，這些數(shù)據(jù)在以前是根本無法得到的。然后，為了再次使用這些數(shù)據(jù)并追蹤歷史模型，他們將把它們存入數(shù)據(jù)庫并真正擴大它的使用范圍。”

是否具備擴展能力是一個挑戰(zhàn)，Collins說，另一個挑戰(zhàn)是“還沒有成形的結(jié)構(gòu)模型來利用該項技術(shù)。我們還在一邊學(xué)習(xí)一邊摸索?！?/p>

他說，隨著軟件包的引入，附帶在軟件包里的某些工具正在導(dǎo)致技術(shù)風險的擴散，但這項技術(shù)主要還是一個編程接口--這對于商務(wù)智能而言是一種倒退。比如，Collins說“Hadoop是一個技術(shù)含量很高的系統(tǒng)，商務(wù)智能的發(fā)展將其推向了普通企業(yè)，進入了桌面電腦之中，并擁有一個非常友好的界面?！蔽覀円呀?jīng)讓Hadoop退了一步，新的賣家們將幫助它回到用戶社區(qū)，那個它應(yīng)該去到的地方。

“大數(shù)據(jù)應(yīng)該跳出IT的圈子，而且我們必須把工具放到業(yè)務(wù)部門用戶的手里”他補充道。 “但現(xiàn)在這種想法還沒有實現(xiàn)?！?/p>

作者：Collett，《電腦世界》撰稿人

【編輯推薦】

原文：大數(shù)據(jù)將給我們帶來怎樣的變化？(1)

上一篇：面向數(shù)據(jù)中心的統(tǒng)一交換架構(gòu) 下一篇：詳解什么是企業(yè)架構(gòu)