hadoop的安裝和使用

知識(shí)存儲(chǔ)館 2012-08-31

展開全文

hadoop是目前比較流程的分布式計(jì)算平臺(tái)，雖然安裝和使用方法官方網(wǎng)站介紹的比較詳細(xì)，但是其中細(xì)節(jié)還是挺多的，稍不注意就要走很多彎路，希望通過本文的介紹，大家能夠在很短的時(shí)間內(nèi)能將hadoop跑起來。由于公司云梯用的是0.19.2版本的，所以下面就以這個(gè)版本為例，而沒有采用目前最新的0.21版本。

hadoop官方網(wǎng)站地址：http://hadoop.

   可以用以下三種支持的模式中的一種啟動(dòng)Hadoop集群：
   單機(jī)模式
   偽分布式模式
   完全分布式模式

單機(jī)和偽分布模式只需要一臺(tái)機(jī)器就可以完成，下面我們先來學(xué)習(xí)這兩種模式。
hadoop目前只有l(wèi)inux版本，所以你需要一臺(tái)linux系統(tǒng)的服務(wù)器，可以跟我一樣用虛擬機(jī)，而且需要先安裝好jdk。我的服務(wù)器版本是centos 5.6，自己將jdk安裝到了/usr/java/jdk1.6.0_25。下面我們來下載并配置hadoop運(yùn)行環(huán)境。

1.單機(jī)模式

我這臺(tái)機(jī)器的ip地址是：192.168.218.128，為了方便，我將這臺(tái)機(jī)器的hostname改成了hd128，這樣以后需要配置的地方都是用hd128了，修改方法是編輯文件/proc/sys/kernel/hostname。然后修改下hosts文件，將 192.168.218.128 hd128也加入進(jìn)來吧。為了方便，將所用的windows機(jī)器hosts也添加下這個(gè)配置，因?yàn)橐院笠脼g覽器訪問hadoop的服務(wù)，查看hadoop的運(yùn)行狀況。
注意：下面配置中涉及到hd128的地方，你需要修改成你自己相應(yīng)的配置。

Shell代碼

cd /data
wget http://archive./dist/hadoop/core/hadoop-0.19.2/hadoop-0.19.2.tar.gz
tar xf hadoop-0.19.2.tar.gz
mv hadoop-0.19.2 hadoop

然后修改配置文件/data/hadoop/conf/hadoop-env.sh，將JAVA_HOME的值為jdk安裝目錄，如下：

export JAVA_HOME=/usr/java/jdk1.6.0_25

下面的實(shí)例將已解壓的conf 目錄拷貝作為輸入，查找并顯示匹配給定正則表達(dá)式的條目。輸出寫入到指定的output目錄。

Shell代碼

mkdir input
//向input目錄放置一些待分析的xml文件
cp conf/*.xml input
//執(zhí)行hadoop-0.19.2-examples.jar這個(gè)jar文件，將input目錄所有的文件中匹配'dfs[a-z.]+'的條目，輸出到output目錄
bin/hadoop jar hadoop-0.19.2-examples.jar grep input output 'dfs[a-z.]+'

下面看看程序運(yùn)行結(jié)果，可以看到所有匹配'dfs[a-z.]+'的字符串及其匹配的次數(shù)。

Shell代碼

cat output/*
[root@hd128 hadoop]# cat output/*
3 dfs.
3 dfs.name.dir
1 dfs.https.address
1 dfs.access.time.precision
1 dfs.balance.bandwidth
1 dfs.block.size
1 dfs.blockreport.initial
1 dfs.blockreport.interval
1 dfs.client.block.write.retries
1 dfs.data.dir
1 dfs.datanode.address
1 dfs.datanode.dns.interface
1 dfs.datanode.dns.nameserver
1 dfs.datanode.du.reserved
1 dfs.datanode.handler.count
1 dfs.datanode.http.address
1 dfs.datanode.https.address
1 dfs.datanode.ipc.address
1 dfs.default.chunk.view.size
1 dfs.df.interval
1 dfs.heartbeat.interval
1 dfs.hosts
1 dfs.hosts.exclude
1 dfs.http.address
1 dfs.impl
1 dfs.max.objects
1 dfs.name.edits.dir
1 dfs.namenode.decommission.interval
1 dfs.namenode.decommission.interval.
1 dfs.namenode.decommission.nodes.per.interval
1 dfs.namenode.handler.count
1 dfs.namenode.logging.level
1 dfs.permissions
1 dfs.permissions.supergroup
1 dfs.replication
1 dfs.replication.consider
1 dfs.replication.interval
1 dfs.replication.max
1 dfs.replication.min
1 dfs.replication.min.
1 dfs.safemode.extension
1 dfs.safemode.threshold.pct
1 dfs.secondary.http.address
1 dfs.support.append
1 dfs.web.ugi

2.偽分布式模式

Hadoop可以在單節(jié)點(diǎn)上以所謂的偽分布式模式運(yùn)行，此時(shí)每一個(gè)Hadoop守護(hù)進(jìn)程都作為一個(gè)獨(dú)立的Java進(jìn)程運(yùn)行。
偽分布式模式需要免密碼ssh設(shè)置,確認(rèn)能否不輸入口令就用ssh登錄localhost:

Shell代碼

ssh localhost

如果不輸入口令就無法用ssh登陸localhost，執(zhí)行下面的命令(注意:只有擁有root權(quán)限的用戶才能執(zhí)行下面命令)：

Shell代碼

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

然后修改conf/hadoop-site.xml，注意，官方教程有點(diǎn)錯(cuò)誤：<value>localhost:9000</value>，這個(gè)地址必須帶上hdfs://，不然后面會(huì)報(bào)錯(cuò)的。另外，dfs.name.dir配置的路徑/data/hadoopdata/NameData需要自己手動(dòng)創(chuàng)建下，不然也會(huì)報(bào)錯(cuò)的。

Shell代碼

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://hd128:9090</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>hdfs://hd128:9091</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/data/hadoopdata/NameData</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/data/hadoopdata/temp</value>
</property>
</configuration>

配置完成后就可以測試下偽分布式模式運(yùn)行的hadoop集群了。
格式化一個(gè)新的分布式文件系統(tǒng)：

Shell代碼

bin/hadoop namenode -format

啟動(dòng)Hadoop守護(hù)進(jìn)程：

Shell代碼

bin/start-all.sh

Hadoop守護(hù)進(jìn)程的日志寫入到 ${HADOOP_LOG_DIR} 目錄 (默認(rèn)是 ${HADOOP_HOME}/logs).如果啟動(dòng)有錯(cuò)誤，可以在這些日志文件看到更詳細(xì)的錯(cuò)誤信息。

瀏覽NameNode和JobTracker的網(wǎng)絡(luò)接口，它們的地址默認(rèn)為：

NameNode - http://hd128:50070/
JobTracker - http://hd128:50030/

下面我們來使用偽分布模式做點(diǎn)事情。

首先將輸入文件拷貝到分布式文件系統(tǒng)，下面命令將本地的conf目錄文件拷貝到hdfs的input目錄。

bin/hadoop fs -put conf input

下面運(yùn)行程序?qū)nput目錄的文件進(jìn)行解析，找到所有符合'dfs[a-z.]+'的行。

Shell代碼

[root@hd128 hadoop]# bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
11/06/16 15:23:23 INFO mapred.FileInputFormat: Total input paths to process : 10
11/06/16 15:23:24 INFO mapred.JobClient: Running job: job_201106161520_0001
11/06/16 15:23:25 INFO mapred.JobClient: map 0% reduce 0%
11/06/16 15:24:05 INFO mapred.JobClient: map 9% reduce 0%
11/06/16 15:25:30 INFO mapred.JobClient: map 9% reduce 3%
11/06/16 15:25:32 INFO mapred.JobClient: map 27% reduce 3%
11/06/16 15:26:37 INFO mapred.JobClient: map 27% reduce 9%

可以看到控制顯示的map和reduce的進(jìn)度，這時(shí)候通過瀏覽器查看NameNode和JobTracker的運(yùn)行狀態(tài)分別如下圖所示：

等map-reduce程序運(yùn)行完畢，我們?cè)趆dfs文件系統(tǒng)上看看程序的運(yùn)行結(jié)果：

Shell代碼

bin/hadoop fs -cat output/part-00000

可以看到跟單機(jī)運(yùn)行的結(jié)果是一樣的。

完成全部操作后，停止守護(hù)進(jìn)程：

Shell代碼

bin/stop-all.sh

3.完全分布式模式

為了在完全分布式模式下運(yùn)行，我弄了三個(gè)centos虛擬機(jī)，ip分別是 192.168.218.128，192.168.218.129，192.168.218.130，hostname分別設(shè)置為 hd128,hd129,hd130， hosts文件將這些都配置進(jìn)去了，這樣以后就可以直接通過hostname訪問到了。

我準(zhǔn)備將hd128這臺(tái)機(jī)器做為master（NameNode和JobTracker），hd129和hd130都做為slave機(jī)器（DataNode和TaskTracker）。

由于master和所有的slave之間是需要使用ssh協(xié)議進(jìn)行通訊的，所以每兩臺(tái)之間，以及每臺(tái)對(duì)自己都必須做到可以無密碼ssh訪問。上面已經(jīng)介紹了怎樣對(duì)自己無密碼ssh訪問，下面再說下怎樣做到兩臺(tái)機(jī)器之間無密碼訪問，我們以hd128和hd129之間為例：

首先在hd128上生成一個(gè)公鑰，并拷貝到hd129上：

Shell代碼

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
scp ~/.ssh/id_dsa.pub root@hd129:/tmp

然后在hd129上，將這個(gè)公鑰加入到權(quán)限控制文件中：

Shell代碼

cat /tmp/id_dsa.pub >> ~/.ssh/authorized_keys

經(jīng)過上面的步驟，hd128對(duì)hd129的ssh訪問就不需要輸入密碼了，依照上面的方法，將hd128，hd129，hd130兩兩之間都弄好無密碼訪問的權(quán)限，這個(gè)工作一定要細(xì)致，很容易弄錯(cuò)或弄漏了，做好后，最好都ssh試試。

經(jīng)過我的實(shí)驗(yàn)，完全分布式模式至少需要在上面的基礎(chǔ)下還要進(jìn)行如下配置。

修改conf/hadoop-env.sh，添加下面配置：

Shell代碼

export HADOOP_HOME=/data/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/conf
export HADOOP_SLAVES=${HADOOP_HOME}/conf/slaves
export HADOOP_MASTER=hd128:/data/hadoop

修改conf/masters，一行一個(gè)master

Shell代碼

hd128

修改conf/slaves，一行一個(gè)slave

Shell代碼

hd129
hd130

就這樣master就配置好了，下面將hadoop整個(gè)目錄分發(fā)到所有slave機(jī)器上面。

Shell代碼

cd /data
tar -czvf hadoop-ok.tar.gz hadoop
scp hadoop-ok.tar.gz root@hd129:/data
scp hadoop-ok.tar.gz root@hd130:/data

在slave機(jī)器上解壓tar文件

Shell代碼

cd /data
tar xf hadoop-ok.tar.gz

配置基本上就完成了，下面就可以以完全分布式模式啟動(dòng)hadoop集群了。對(duì)hadoop集群的操作都在master機(jī)器上進(jìn)行就行了，slave進(jìn)程的啟動(dòng)和停止都是master通過ssh來控制的。
(1)首先我們需要格式化hdfs文件系統(tǒng)

Shell代碼

cd /data/hadoop
bin/hadoop namenode -format

(2)啟動(dòng)hdfs文件系統(tǒng)

Shell代碼

bin/start-dfs.sh

測試下hdfs文件系統(tǒng)是否好用了，我們將conf目錄下的所有文件放到hdfs的input目錄：
bin/hadoop fs -put conf input

下面查看下input目錄下下的文件：

Shell代碼

[root@hd128 hadoop]# bin/hadoop fs -ls input
Found 10 items
-rw-r--r-- 1 root supergroup 2065 2011-06-19 15:41 /user/root/input/capacity-scheduler.xml
-rw-r--r-- 1 root supergroup 535 2011-06-19 15:41 /user/root/input/configuration.xsl
-rw-r--r-- 1 root supergroup 50230 2011-06-19 15:41 /user/root/input/hadoop-default.xml
-rw-r--r-- 1 root supergroup 2397 2011-06-19 15:41 /user/root/input/hadoop-env.sh
-rw-r--r-- 1 root supergroup 1245 2011-06-19 15:41 /user/root/input/hadoop-metrics.properties
-rw-r--r-- 1 root supergroup 711 2011-06-19 15:41 /user/root/input/hadoop-site.xml
-rw-r--r-- 1 root supergroup 2815 2011-06-19 15:41 /user/root/input/log4j.properties
-rw-r--r-- 1 root supergroup 6 2011-06-19 15:41 /user/root/input/masters
-rw-r--r-- 1 root supergroup 12 2011-06-19 15:41 /user/root/input/slaves
-rw-r--r-- 1 root supergroup 401 2011-06-19 15:41 /user/root/input/sslinfo.xml.example

如果順利看到這些文件，hdfs就啟動(dòng)正常了。

(3)啟動(dòng)map-reduce服務(wù)

Shell代碼

bin/start-mapred.sh

下面檢測下服務(wù)是否啟動(dòng)正常。
看看master機(jī)器上namenode和jobTracker服務(wù)是否存在：

Shell代碼

[root@hd128 hadoop]# ps axu|grep java
root 28546 0.3 11.3 1180236 24564 Sl 15:26 0:00 /usr/java/jdk1.6.0_25/bin/java -Xmx1000m -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote -Dhadoop.log.dir=/data/hadoop/logs -Dhadoop.log.file=hadoop-root-secondarynamenode-hd128.log -Dhadoop.home.dir=/data/hadoop -Dhadoop.id.str=root -Dhadoop.root.logger=INFO,DRFA -Djava.library.path=/data/hadoop/lib/native/Linux-i386-32 -classpath /data/hadoop/conf:/usr/java/jdk1.6.0_25/lib/tools.jar:/data/hadoop:/data/hadoop/hadoop-0.19.2-core.jar:/data/hadoop/lib/commons-cli-2.0-SNAPSHOT.jar:/data/hadoop/lib/commons-codec-1.3.jar:/data/hadoop/lib/commons-httpclient-3.0.1.jar:/data/hadoop/lib/commons-logging-1.0.4.jar:/data/hadoop/lib/commons-logging-api-1.0.4.jar:/data/hadoop/lib/commons-net-1.4.1.jar:/data/hadoop/lib/hsqldb-1.8.0.10.jar:/data/hadoop/lib/jets3t-0.6.1.jar:/data/hadoop/lib/jetty-5.1.4.jar:/data/hadoop/lib/junit-3.8.1.jar:/data/hadoop/lib/kfs-0.2.0.jar:/data/hadoop/lib/log4j-1.2.15.jar:/data/hadoop/lib/oro-2.0.8.jar:/data/hadoop/lib/servlet-api.jar:/data/hadoop/lib/slf4j-api-1.4.3.jar:/data/hadoop/lib/slf4j-log4j12-1.4.3.jar:/data/hadoop/lib/xmlenc-0.52.jar:/data/hadoop/lib/jetty-ext/commons-el.jar:/data/hadoop/lib/jetty-ext/jasper-compiler.jar:/data/hadoop/lib/jetty-ext/jasper-runtime.jar:/data/hadoop/lib/jetty-ext/jsp-api.jar org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode
root 28628 6.3 16.8 1185080 36392 pts/0 Sl 15:28 0:01 /usr/java/jdk1.6.0_25/bin/java -Xmx1000m -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote -Dhadoop.log.dir=/data/hadoop/logs -Dhadoop.log.file=hadoop-root-jobtracker-hd128.log -Dhadoop.home.dir=/data/hadoop -Dhadoop.id.str=root -Dhadoop.root.logger=INFO,DRFA -Djava.library.path=/data/hadoop/lib/native/Linux-i386-32 -classpath /data/hadoop/conf:/usr/java/jdk1.6.0_25/lib/tools.jar:/data/hadoop:/data/hadoop/hadoop-0.19.2-core.jar:/data/hadoop/lib/commons-cli-2.0-SNAPSHOT.jar:/data/hadoop/lib/commons-codec-1.3.jar:/data/hadoop/lib/commons-httpclient-3.0.1.jar:/data/hadoop/lib/commons-logging-1.0.4.jar:/data/hadoop/lib/commons-logging-api-1.0.4.jar:/data/hadoop/lib/commons-net-1.4.1.jar:/data/hadoop/lib/hsqldb-1.8.0.10.jar:/data/hadoop/lib/jets3t-0.6.1.jar:/data/hadoop/lib/jetty-5.1.4.jar:/data/hadoop/lib/junit-3.8.1.jar:/data/hadoop/lib/kfs-0.2.0.jar:/data/hadoop/lib/log4j-1.2.15.jar:/data/hadoop/lib/oro-2.0.8.jar:/data/hadoop/lib/servlet-api.jar:/data/hadoop/lib/slf4j-api-1.4.3.jar:/data/hadoop/lib/slf4j-log4j12-1.4.3.jar:/data/hadoop/lib/xmlenc-0.52.jar:/data/hadoop/lib/jetty-ext/commons-el.jar:/data/hadoop/lib/jetty-ext/jasper-compiler.jar:/data/hadoop/lib/jetty-ext/jasper-runtime.jar:/data/hadoop/lib/jetty-ext/jsp-api.jar org.apache.hadoop.mapred.JobTracker
root 28738 0.0 0.3 4028 704 pts/0 R+ 15:28 0:00 grep java

看看slave機(jī)器DataNode和TaskTracker進(jìn)程是否存在:

Shell代碼

[root@hd129 logs]# ps axu|grep java
root 2026 0.1 11.5 1180316 24860 Sl 15:22 0:00 /usr/java/jdk1.6.0_25/bin/java -Xmx1000m -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote -Dhadoop.log.dir=/data/hadoop/logs -Dhadoop.log.file=hadoop-root-datanode-hd129.log -Dhadoop.home.dir=/data/hadoop -Dhadoop.id.str=root -Dhadoop.root.logger=INFO,DRFA -Djava.library.path=/data/hadoop/lib/native/Linux-i386-32 -classpath /data/hadoop/conf:/usr/java/jdk1.6.0_25/lib/tools.jar:/data/hadoop:/data/hadoop/hadoop-0.19.2-core.jar:/data/hadoop/lib/commons-cli-2.0-SNAPSHOT.jar:/data/hadoop/lib/commons-codec-1.3.jar:/data/hadoop/lib/commons-httpclient-3.0.1.jar:/data/hadoop/lib/commons-logging-1.0.4.jar:/data/hadoop/lib/commons-logging-api-1.0.4.jar:/data/hadoop/lib/commons-net-1.4.1.jar:/data/hadoop/lib/hsqldb-1.8.0.10.jar:/data/hadoop/lib/jets3t-0.6.1.jar:/data/hadoop/lib/jetty-5.1.4.jar:/data/hadoop/lib/junit-3.8.1.jar:/data/hadoop/lib/kfs-0.2.0.jar:/data/hadoop/lib/log4j-1.2.15.jar:/data/hadoop/lib/oro-2.0.8.jar:/data/hadoop/lib/servlet-api.jar:/data/hadoop/lib/slf4j-api-1.4.3.jar:/data/hadoop/lib/slf4j-log4j12-1.4.3.jar:/data/hadoop/lib/xmlenc-0.52.jar:/data/hadoop/lib/jetty-ext/commons-el.jar:/data/hadoop/lib/jetty-ext/jasper-compiler.jar:/data/hadoop/lib/jetty-ext/jasper-runtime.jar:/data/hadoop/lib/jetty-ext/jsp-api.jar org.apache.hadoop.hdfs.server.datanode.DataNode
root 2204 2.3 16.0 1185772 34604 Sl 15:28 0:00 /usr/java/jdk1.6.0_25/bin/java -Xmx1000m -Dhadoop.log.dir=/data/hadoop/logs -Dhadoop.log.file=hadoop-root-tasktracker-hd129.log -Dhadoop.home.dir=/data/hadoop -Dhadoop.id.str=root -Dhadoop.root.logger=INFO,DRFA -Djava.library.path=/data/hadoop/lib/native/Linux-i386-32 -classpath /data/hadoop/conf:/usr/java/jdk1.6.0_25/lib/tools.jar:/data/hadoop:/data/hadoop/hadoop-0.19.2-core.jar:/data/hadoop/lib/commons-cli-2.0-SNAPSHOT.jar:/data/hadoop/lib/commons-codec-1.3.jar:/data/hadoop/lib/commons-httpclient-3.0.1.jar:/data/hadoop/lib/commons-logging-1.0.4.jar:/data/hadoop/lib/commons-logging-api-1.0.4.jar:/data/hadoop/lib/commons-net-1.4.1.jar:/data/hadoop/lib/hsqldb-1.8.0.10.jar:/data/hadoop/lib/jets3t-0.6.1.jar:/data/hadoop/lib/jetty-5.1.4.jar:/data/hadoop/lib/junit-3.8.1.jar:/data/hadoop/lib/kfs-0.2.0.jar:/data/hadoop/lib/log4j-1.2.15.jar:/data/hadoop/lib/oro-2.0.8.jar:/data/hadoop/lib/servlet-api.jar:/data/hadoop/lib/slf4j-api-1.4.3.jar:/data/hadoop/lib/slf4j-log4j12-1.4.3.jar:/data/hadoop/lib/xmlenc-0.52.jar:/data/hadoop/lib/jetty-ext/commons-el.jar:/data/hadoop/lib/jetty-ext/jasper-compiler.jar:/data/hadoop/lib/jetty-ext/jasper-runtime.jar:/data/hadoop/lib/jetty-ext/jsp-api.jar org.apache.hadoop.mapred.TaskTracker
root 2266 0.0 0.3 4028 676 pts/0 R+ 15:29 0:00 grep java

我們可以看到master和slave上各自有兩個(gè)java線程在服務(wù)，下面我們還是用之前的例子試試。
bin/hadoop jar hadoop-0.19.2-examples.jar grep input output 'dfs[a-z.]+'

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：知識(shí)存儲(chǔ)館 > 《hadoop》

舉報(bào)/認(rèn)領(lǐng)