隨著數據量的飛速增長,對大數據進行獲取、存儲、組織、分析和決策的基本策略是把大數據的計算推向數據,而不是移動數據,因為在大數據處理過程中數據移動代價過高,在分布式環(huán)境中,傳統(tǒng)的數據處理方法在不高于TB級別數據處理可能可以接受,但面對大數據,其執(zhí)行時間和執(zhí)行成本至少會增長幾個數量級,特別是對大量實時數據分析,這種移動數據的計算模式是不可取的。小編帶大家來了解一下當前研究現狀及未來大數據主要研究熱點。 一般情況下,大數據管理全生命周期過程包括大數據獲取、存儲、組織、分析和決策等五個階段,圍繞大數據管理生態(tài)系統(tǒng)的研究,可以圍繞結構化數據管理及非結構化數據管理兩個方面進行研究。圍繞結構化數據管理,即傳統(tǒng)的關系數據庫管理系統(tǒng),衍生出傳統(tǒng)的大數據獲取、存儲、組織、分析和決策生態(tài)系統(tǒng)。而關系數據庫作為大數據管理的核心數據引擎,各類結構化數據通過ETI工具按照其結構特征進行組織,存儲到關系數據庫中,再在客戶端通過SQL語言進行例行性的數據分析,進而根據數據分析結構進行技術性決策分析,目前,處理結構化大數據的關系數據庫管理技術已經非常成熟,如商業(yè)型Oracle、SqlServer、開源型MySql等,均具備了強大的結構化數據管理功能,并且均擁有較為強大的數據倉庫功能,對于的數據挖掘技術也已經充分滿足一般的結構化數據分析、決策需求。 但針對復雜的結構化和非結構化大數據處理需求,Sql語言表達能力就暴露出了一定局限性,在某些特殊大數據處理過程中,需要把數據從數據庫中讀取出來,導致大量數據的移動,將數據導入到前端分析工具(如SPSS、SAS等),借助于統(tǒng)計分析軟件進行大數據深度分析和決策,這樣產生的致命性問題就是大數據移動會造成性能急劇下降。因此,SPSS、SAS等數據分析企業(yè)正在致力于把計算過程封裝在數據庫系統(tǒng)中執(zhí)行,但目前進展有限,并且大數據分析函數的分布化、并行化、數據處理系統(tǒng)的擴展性、靈活性、智能性等仍然是難以解決的問題。 隨著Hadoop開源框架及其相關技術的迅速興起和逐步完善,使其成為打開大數據之門的金鑰匙,也成為解決傳統(tǒng)的大數據處理方式所面臨的兩大難題的關鍵,從而推動大數據管理的新生態(tài)系統(tǒng)的浮現。從技術上看,Hadoop兩項關鍵服務:采用Hadoop分布式文件系統(tǒng)的可靠大數據存儲服務、及基于MapReduce編程模型的高性能并行大數據處理服務,能夠提供對結構化和復雜數據、非結構數據的快速、可靠分析變?yōu)楝F實,并可與老的信息管理系統(tǒng)部署在一起,從而能夠以有利新方式組裝新舊數據集合,讓圖書館可以根據自有信息和問題定制知識服務組合方式,更容易地分析和研究復雜數據,同時作為一個自愈系統(tǒng),在出現系統(tǒng)變化或故障時,它仍可以運行大規(guī)模的高性能處理任務,并提供數據。其他諸如HadoopCommon、Chukwa、HBase、Hive、Pig、ZooKeeper等大數據處理添加件、交叉集成件和定制實現,均能為新生態(tài)系統(tǒng)提供強大的技術支持。 盡管如此,當前各個方面的相關研究都不能完美的解決大數據核心問題,仍然有許多極具挑戰(zhàn)性的工作等待著我們去研究。 (1)關系數據庫和MapReduce技術有機融合的研究。如前所述,MapReduce與關系數據庫各有優(yōu)缺點,如何依據不同的大數據處理業(yè)務需求,設計同時具備兩種技術優(yōu)勢的技術架構(即有關系數據庫的通用性、易操作性和MapReduce的可擴展性、開放性、靈活性、容錯性和智能性),在對關系數據庫更深層次了解的基礎上,深入分析MapReduce編程模型內在的局限性和并行計算模型。如何有機融合關系數據庫技術和MapReduce技術,使之能夠有效地支持迭代式并行計算模型的執(zhí)行,這也是大數據處理技術的核心問題之一。 (2)對結構化數據和非結構化數據更加復雜的或更大規(guī)模的分析。MapReduce計算模型在很大程度上,能夠彌補關系數據庫在這兩個方面的缺憾,而在云計算環(huán)境中可以初步實現更加復雜和更大規(guī)模的大數據處理,比如大規(guī)模社會計算、大規(guī)模社交網絡、時間序列分析、大規(guī)模圖分析、及更細粒度的仿真等,這一類技術仍然不夠成熟,需要花費更多的時間、精力去探討。 (3)大數據獲取、存儲、組織、分析和決策操作的可視化接口。如何較好的實現大數據處理的各個階段的可視化、智能化、及個性化的展示和操作,尤其是多維數據操作、及決策結果評估的可視化的智能展示。 (4)大數據管理系統(tǒng)的可靠性研究。當前大數據管理體系是基于大規(guī)模廉價計算機集群的云計算環(huán)境,采用的是主從結構,由此決定了主節(jié)點一旦失效,勢必會造成整個大數據管理系統(tǒng)失效的局面。因此,如何在不影響全局的情況下,提高大數據管理系統(tǒng)的主節(jié)點的可靠性,將是未來需要解決的關鍵問題之一。 (5)大數據的網絡傳輸和壓縮問題。MapReduce編程模型的計算特征決定了其性能取決于I/O和網絡傳輸質量和計算代價。而數據壓縮技術不僅可節(jié)省存儲空間、節(jié)省I/O及網絡傳輸帶價,還可利用云計算環(huán)境中存儲能力和并行計算能力,大幅提升大數據管理系統(tǒng)的性能。HeYongqiang和AvriliaFloratou所帶領的兩個團隊均成功的利用數據壓縮技術提升了大數據管理系統(tǒng)的性能,但這些研究都是基于他們各自的大數據處理模型,而非默認的Hadoop數據處理模型。因此,基于MapReduce編程模型的通用型大數據壓縮技術也是尚待研究的核心技術之一。 |
|