日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

將OpenStack私有云部署到Hadoop MapReduce環(huán)境

 richsky 2013-02-17
摘要:隨著企業(yè)開始同時(shí)利用云計(jì)算和大數(shù)據(jù)技術(shù),現(xiàn)在應(yīng)當(dāng)考慮如何將這些工具結(jié)合使用。在這種情況下,企業(yè)將實(shí)現(xiàn)最佳的分析處理能力,同時(shí)利用私有云的快速彈性和單一租賃的特性。本文將幫助您了解云計(jì)算和大數(shù)據(jù)技術(shù)以及如何將OpenStack 私有云部署到Hadoop MapReduce環(huán)境。

私有云簡介

私有云 指企業(yè)內(nèi)部的云計(jì)算部署,在私有云中,企業(yè)利用了數(shù)據(jù)中心內(nèi)的各種云計(jì)算技術(shù)的細(xì)微差別。這些差別包括快速彈性、資源池、按需配給和自動(dòng)化管理。為了在內(nèi)部將這些屬性整合在一起,大多數(shù)企業(yè)采用了開源的云版本,比如 OpenStack 或 CloudStack。

OpenStack 是最流行的開源云版本,它包括控制器、計(jì)算 (Nova)、存儲(chǔ) (Swift)、消息隊(duì)列 (RabbitMQ) 和網(wǎng)絡(luò) (Quantum) 組件。圖1提供了這些組件的一個(gè)圖示(不包含 Quantum 網(wǎng)絡(luò)組件)。


圖 1. OpenStack 的組件 

這些組件共同提供了一個(gè)允許動(dòng)態(tài)配給計(jì)算和存儲(chǔ)資源的環(huán)境。從硬件角度看,這些服務(wù)可擴(kuò)展到許多虛擬的和物理的服務(wù)器上。例如,大多數(shù)組織部署一個(gè)物理服務(wù)器作為控制器節(jié)點(diǎn),部署另一個(gè)物理服務(wù)器作為計(jì)算節(jié)點(diǎn)。許多組織還選擇將其存儲(chǔ)環(huán)境分離到一個(gè)專用的物理服務(wù)器上,對于 OpenStack 部署而言,這意味著對 Swift 存儲(chǔ)環(huán)境使用單獨(dú)的服務(wù)器。

大數(shù)據(jù)簡介

Oracle 將 大數(shù)據(jù) 定義為三個(gè)數(shù)據(jù)源的數(shù)據(jù)匯集:傳統(tǒng)數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù))、感知數(shù)據(jù)(日志數(shù)據(jù)和元數(shù)據(jù))和社交(社交媒體)數(shù)據(jù)。大數(shù)據(jù)通常采用新的技術(shù)模式進(jìn)行存儲(chǔ),比如非關(guān)系分布式數(shù)據(jù)庫 NoSQL。共有四種非關(guān)系數(shù)據(jù)庫管理此系統(tǒng) (NRDBMS):基于列、關(guān)鍵值、圖表和基于文檔。這些 NRDBMS 將源數(shù)據(jù)聚集在一起,同時(shí)用 MapReduce 之類的分析程序?qū)R總的信息進(jìn)行分析。

傳統(tǒng)的大數(shù)據(jù)環(huán)境包括一個(gè)分析程序、一個(gè)數(shù)據(jù)存儲(chǔ)、一個(gè)可擴(kuò)展文件系統(tǒng)、一個(gè)工作流管理器、一個(gè)分布式排序和散列解決方案以及一個(gè)數(shù)據(jù)流編程框架。常用于商業(yè)應(yīng)用程序的數(shù)據(jù)流編程框架是 Structured Query Language (SQL),對于開源應(yīng)用程序,通常會(huì)使用 SQL 的替代方案,如 Apache Pig for Hadoop。在商用方面,Cloudera 提供了最穩(wěn)定、最全面的解決方案之一,而 Apache Hadoop 是最流行的開源 Hadoop 版本。

Apache Hadoop 的應(yīng)用比較常見,因?yàn)槟梢允褂枚喾N組件,包括 Hadoop Distributed File System(即 HDFS,是一種可擴(kuò)展的文件系統(tǒng)),HBase(數(shù)據(jù)庫/數(shù)據(jù)存儲(chǔ))、Pig、Hadoop(分析方法)和 MapReduce(分布式排序和散列)。如圖 2 所示,Hadoop 任務(wù)被分解為幾個(gè)節(jié)點(diǎn),而 MapReduce 任務(wù)則被分解為跟蹤器 (tracker)。


圖 2. HDFS/MapReduce 層的組成部分 

圖 3 顯示了 MapReduce 如何執(zhí)行任務(wù),它將獲取輸入并執(zhí)行一系列分組、排序和合并操作,然后呈現(xiàn)經(jīng)過排序和散列的輸出。


圖 3. 高級 MapReduce 圖

圖 4 演示了一個(gè)更復(fù)雜的 MapReduce 任務(wù)及其組成部分。

圖 4. MapReduce 數(shù)據(jù)流圖解

盡管 Hadoop MapReduce 要比傳統(tǒng)的分析環(huán)境(如 IBM? Cognos? 和 Satori proCube 在線分析處理)更復(fù)雜一些,但它的部署仍然具有可擴(kuò)展能力和高成本效益。

全盤考慮

大數(shù)據(jù)技術(shù)和私有云環(huán)境都很有用;不過,如果將兩者結(jié)合在一起,企業(yè)會(huì)獲得巨大的利潤。盡管結(jié)合兩者會(huì)讓環(huán)境變得更復(fù)雜,企業(yè)仍然可以看到將 OpenStack 私有云和 Apache Hadoop 環(huán)境結(jié)合在一起產(chǎn)生的顯著的協(xié)同效應(yīng)。下一小節(jié)將介紹企業(yè)如何將私有云和大數(shù)據(jù)技術(shù)結(jié)合在一起。

Swift、Apache Hadoop 和 MapReduce

在私有云環(huán)境中,常見的大數(shù)據(jù)部署模型之一是:將 OpenStack 的 Swift 存儲(chǔ)技術(shù)部署到 Apache Hadoop MapReduce 集群,從而實(shí)現(xiàn)處理功能。使用這種架構(gòu)的優(yōu)勢是,企業(yè)將獲得一個(gè)可擴(kuò)展的存儲(chǔ)節(jié)點(diǎn),可以用該節(jié)點(diǎn)來處理其不斷累積的數(shù)據(jù)。根據(jù) IDC 的調(diào)查,數(shù)據(jù)年增長率已經(jīng)達(dá)到 60%,該解決方案將滿足不斷增長的數(shù)據(jù)需求,同時(shí)允許組織同時(shí)啟動(dòng)一個(gè)試點(diǎn)項(xiàng)目來部署私有云。

該部署模型的最佳使用場景是企業(yè)希望通過存儲(chǔ)池嘗試使用私有云技術(shù),同時(shí)在內(nèi)部使用大數(shù)據(jù)技術(shù)。最佳實(shí)踐表明您應(yīng)當(dāng)先將大數(shù)據(jù)技術(shù)部署到您的生產(chǎn)數(shù)據(jù)倉庫環(huán)境中,然后構(gòu)建并配置您的私有云存儲(chǔ)解決方案。如果將 Apache Hadoop MapReduce 技術(shù)成功融合到數(shù)據(jù)倉庫環(huán)境中,并且已經(jīng)正確構(gòu)建并運(yùn)行您的私有云存儲(chǔ)池,那么您就可以將私有云存儲(chǔ)數(shù)據(jù)與預(yù)調(diào)度的 Hadoop MapReduce 環(huán)境集成在一起。

Swift 和 Cloudera 的 Apache Hadoop 發(fā)行版

對于那些不愿意從頭開始使用大數(shù)據(jù)的企業(yè),可以使用 Cloudera 等解決方案供應(yīng)商提供的大數(shù)據(jù)設(shè)備。Cloudera 的發(fā)行版包括 Apache Hadoop (CDH) 解決方案,它允許企業(yè)不必針對 Hadoop 的每個(gè)細(xì)微差別來招募或培訓(xùn)員工,因此可以在大數(shù)據(jù)方面實(shí)現(xiàn)更高的投資回報(bào) (ROI)。對于那些不具備大數(shù)據(jù)或私有云技能集,希望以緩慢、漸進(jìn)的方式將該技術(shù)集成到其產(chǎn)品組合的企業(yè),這一點(diǎn)尤其吸引人。

大數(shù)據(jù)和云計(jì)算屬于相對較新的技術(shù),許多企業(yè)希望通過它們實(shí)現(xiàn)成本節(jié)??;不過,許多企業(yè)對于是否完全采用這些技術(shù)猶豫不決。通過利用供應(yīng)商支持的大數(shù)據(jù)軟件版本,企業(yè)在這方面將會(huì)更加從容,同時(shí)還可以了解如何使用這些技術(shù)來發(fā)揮自身的優(yōu)勢。此外,如果使用大數(shù)據(jù)軟件分析大型數(shù)據(jù)集,而且可以通過私有云存儲(chǔ)節(jié)點(diǎn)來管理這些數(shù)據(jù)集,那么這些企業(yè)還可以實(shí)現(xiàn)更高的利用率。為了最好地將這一策略集成到企業(yè)中,首先需要安裝、配置和管理 CDH,以便分析企業(yè)的數(shù)據(jù)倉庫環(huán)境,然后將 Swift 中存儲(chǔ)的數(shù)據(jù)添加到需要的地方。

Swift、Nova 和 Apache Hadoop MapReduce

對于希望在大數(shù)據(jù)環(huán)境中實(shí)現(xiàn)更高程度的靈活性、可擴(kuò)展性和自治性的企業(yè),可以利用 Apache 和 OpenStack 提供的開源產(chǎn)品的與生俱來的能力。為此,企業(yè)需要最大限度地利用這兩種技術(shù)棧,這就要求采用與前面所述的解決方案不同的思維方式來設(shè)計(jì)環(huán)境。

要獲得完全可伸縮的、靈活的大數(shù)據(jù)環(huán)境,必須在一個(gè)同時(shí)提供存儲(chǔ)和計(jì)算節(jié)點(diǎn)的私有云環(huán)境中運(yùn)行它。為此,企業(yè)必須先構(gòu)建私有云,然后添加大數(shù)據(jù)。因此,在這種情況下,必然會(huì)用到 Swift、Nova 和 RabbitMQ,并控制器節(jié)點(diǎn)來管理和維護(hù)環(huán)境。但是,問題在于企業(yè)是否需要針對不同的系統(tǒng)和業(yè)務(wù)部門將環(huán)境分為若干個(gè)部分(例如,非大數(shù)據(jù)虛擬機(jī)或客戶機(jī)實(shí)例)。如果企業(yè)準(zhǔn)備完全使用私有云,那么應(yīng)當(dāng)添加 Quantum,從網(wǎng)絡(luò)的角度對不同的環(huán)境進(jìn)行劃分(參見圖 5)。


圖 5. OpenStack 架構(gòu)

在設(shè)置并測試了私有云環(huán)境后,可以將 Apache Hadoop 組件合并到其中。此時(shí),Nova 實(shí)例可用于存放 NoSQL 或 SQL 數(shù)據(jù)存儲(chǔ)(沒錯(cuò),它們可以共存)以及 Pig 和 MapReduce 實(shí)例;Hadoop 可以位于一個(gè)獨(dú)立的非 Nova 機(jī)器上,以便提供處理功能。在不久的將來,Hadoop 有望在 Nova 實(shí)例上運(yùn)行,使私有云自包含到所有 Nova 實(shí)例中。

GFS、Nova、Pig 和 MapReduce

從架構(gòu)的角度看,除了使用 OpenStack 的 Swift 實(shí)現(xiàn)可擴(kuò)展存儲(chǔ)外,可能還有其他選擇。本例使用了 Google File System (GFS)、Nova 組件和 Apache Hadoop 組件,具體來講,使用了 Pig 和 MapReduce。該示例允許企業(yè)集中精力開發(fā)一個(gè)僅用于計(jì)算處理的私有云計(jì)算節(jié)點(diǎn),同時(shí)利用 Google 的公共存儲(chǔ)云作為數(shù)據(jù)存儲(chǔ)。通過使用這種混合云,企業(yè)可以專注于計(jì)算處理功能的核心能力,由第三方負(fù)責(zé)實(shí)現(xiàn)存儲(chǔ)。該模型可以利用其他供應(yīng)商的存儲(chǔ)解決方案,如 Amazon Simple Storage Service;但是,在使用任何外部存儲(chǔ)之前,企業(yè)應(yīng)當(dāng)在內(nèi)部使用可擴(kuò)展的文件系統(tǒng) (XFS) 來構(gòu)建該解決方案,并進(jìn)行相應(yīng)的測試,然后再將其擴(kuò)展到公共云中。此外,根據(jù)數(shù)據(jù)的敏感性,企業(yè)可能需要使用數(shù)據(jù)保護(hù)機(jī)制,比如模糊處理 (obfuscation)、解除匿名化、加密或散列。

技巧和提示

在將云計(jì)算和大數(shù)據(jù)技術(shù)并入企業(yè)環(huán)境時(shí),一定要為這兩個(gè)技術(shù)平臺(tái)構(gòu)建員工的技能集。當(dāng)您的員工理解這些技術(shù)后,就可以組建一個(gè)實(shí)驗(yàn)室來測試這兩個(gè)平臺(tái)合并后的效果。由于包含許多不同的組件,因此在實(shí)現(xiàn)過程中,請務(wù)必遵循前面提到的經(jīng)過驗(yàn)證的路徑。此外,企業(yè)在嘗試合并這兩種模式時(shí)可能會(huì)遇到一些挫折,應(yīng)當(dāng)在進(jìn)行若干次嘗試后改用其他方法。這些方法包括設(shè)備和混合云。

障礙和陷阱

由于這些都是比較新的技術(shù),所以大多數(shù)企業(yè)需要利用現(xiàn)有資源進(jìn)行測試,之后再進(jìn)行大量的資本支出 (CapEx)。然而,如果沒有對這些技術(shù)在企業(yè)中的應(yīng)用進(jìn)行合理的預(yù)算和人員培訓(xùn),那么試點(diǎn)和測試工作將會(huì)以失敗告終。同樣,如果缺少完整的私有云部署,企業(yè)應(yīng)當(dāng)首先在其中實(shí)現(xiàn)大數(shù)據(jù)技術(shù),然后再實(shí)現(xiàn)私有云。

最后,企業(yè)需要為私有云和大數(shù)據(jù)計(jì)劃制定一個(gè)戰(zhàn)略路線圖。要獲得成功的部署,則需要進(jìn)行更多的分析 “工作”,這有可能會(huì)拖延處理過程。為了消除這種風(fēng)險(xiǎn),應(yīng)當(dāng)采用一種迭代式的項(xiàng)目管理方法,以分階段的方式部署到業(yè)務(wù)部門中,通過這種方法將這些技術(shù)部署到企業(yè)中。

結(jié)束語

云計(jì)算和大數(shù)據(jù)正步入我們的生活,因此我們的企業(yè)需要確定這些技術(shù)如何使公司受益,比如 CapEx 方面的成本節(jié)省或增強(qiáng)的處理功能。您的企業(yè)應(yīng)當(dāng)分別對這些系統(tǒng)進(jìn)行測試,然后以迭代的方式將它們整合到企業(yè)中。這樣,企業(yè)就可以實(shí)現(xiàn)出色的投資回報(bào),為未來發(fā)展做好準(zhǔn)備。

作者簡介

Steve Markey 是一名顧問、副教授以及 Cloud Security Alliance (CSA) 的 Delaware Valley (Greater Philadelphia) 分會(huì)的現(xiàn)任主席。他擁有多個(gè)證書和學(xué)位,在技術(shù)領(lǐng)域擁有超過 11 年的工作經(jīng)驗(yàn)。Steve 經(jīng)常發(fā)表有關(guān)信息安全、信息隱私、云計(jì)算、項(xiàng)目管理、電子發(fā)現(xiàn)和信息治理的演講。

原文鏈接: 將OpenStack 私有云部署到Hadoop MapReduce 環(huán)境         

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多